АІ-агенти швидко розширюють свої можливості, від перегляду веб-сторінок до отримання складної інформації та виконання дій від імені користувачів. Хоча ці досягнення обіцяють безпрецедентну корисність та ефективність, вони одночасно створюють нові, складні поверхні для атак. Головною серед них є ін'єкція запитів — метод, коли зловмисні інструкції вбудовуються у зовнішній контент, націлений на маніпулювання моделлю ШІ для виконання ненавмисних дій. OpenAI підкреслює критичну еволюцію цих атак: вони все частіше імітують тактики соціальної інженерії, що вимагає фундаментального зсуву в стратегіях захисту від простої фільтрації вхідних даних до надійного системного дизайну.
Загроза, що розвивається: Ін'єкція запитів та соціальна інженерія
Спочатку атаки ін'єкції запитів часто були прямолінійними, наприклад, вбудовування прямих ворожих команд у статтю Вікіпедії, яку міг обробити АІ-агент. Ранні моделі, яким бракувало досвіду навчання в таких ворожих середовищах, були схильні беззаперечно дотримуватися цих явних інструкцій. Однак, у міру того як моделі ШІ дозрівали та ставали більш складними, їхня вразливість до таких відвертих пропозицій зменшилася. Це спонукало зловмисників розробляти більш тонкі методи, що включають елементи соціальної інженерії.
Ця еволюція є значущою, оскільки вона виходить за рамки простого виявлення зловмисного рядка. Замість цього вона ставить перед системами ШІ завдання протистояти оманливому або маніпулятивному контенту в ширшому контексті, подібно до того, як людина стикається з соціальною інженерією. Наприклад, атака ін'єкції запитів у 2025 році, про яку повідомляли OpenAI, полягала у створенні електронного листа, який здавався нешкідливим, але містив вбудовані інструкції, розроблені для того, щоб обманом змусити АІ-асистента вилучити конфіденційні дані співробітників і надіслати їх до "системи перевірки відповідності". Ця атака продемонструвала 50% успішність у тестуванні, показуючи ефективність поєднання легітимних запитів зі зловмисними директивами. Такі складні атаки часто обходять традиційні системи "брандмауера ШІ", які зазвичай намагаються класифікувати вхідні дані на основі простих евристик, оскільки виявлення цих тонких маніпуляцій стає таким же складним, як розрізнення брехні чи дезінформації без повного ситуаційного контексту.
АІ-агенти як людські аналоги: Уроки захисту від соціальної інженерії
Для протидії цим просунутим технікам ін'єкції запитів OpenAI застосувала зміну парадигми, розглядаючи проблему крізь призму людської соціальної інженерії. Цей підхід визнає, що мета полягає не в ідеальному виявленні кожного зловмисного вхідного сигналу, а скоріше в розробці АІ-агентів і систем таким чином, щоб вплив маніпуляції був суворо обмежений, навіть якщо атака частково успішна. Цей спосіб мислення аналогічний управлінню ризиками соціальної інженерії для співробітників в організації.
Розглянемо людського агента служби підтримки клієнтів, якому довірено можливість видавати відшкодування або подарункові картки. Хоча агент прагне обслуговувати клієнта, він постійно піддається впливу зовнішніх вхідних даних — деякі з яких можуть бути маніпулятивними або навіть примусовими. Організації пом'якшують цей ризик шляхом впровадження правил, обмежень та детермінованих систем. Наприклад, агент служби підтримки може мати обмеження на кількість відшкодувань, які він може видати, або конкретні процедури для позначення підозрілих запитів. Аналогічно, АІ-агент, працюючи від імені користувача, повинен мати властиві обмеження та гарантії. Розглядаючи АІ-агентів у рамках цієї "системи трьох акторів" (користувач, агент, зовнішній світ), де агент повинен орієнтуватися в потенційно ворожих зовнішніх вхідних даних, дизайнери можуть закласти стійкість. Цей підхід визнає, що деякі атаки неминуче прослизнуть, але гарантує мінімізацію їхнього потенційного шкоди. Цей принцип лежить в основі надійного набору контрзаходів, розгорнутих OpenAI.
| Принцип захисту | Опис | Аналогія з людськими системами | Перевага |
|---|---|---|---|
| Обмеження | Обмеження можливостей та дій агента заздалегідь визначеними, безпечними межами, що запобігає несанкціонованим або надмірно широким операціям. | Ліміти витрат, рівні авторизації, забезпечення дотримання політики для співробітників. | Зменшує потенційну шкоду, навіть якщо агент частково скомпрометований. |
| Прозорість | Вимога явного підтвердження користувачем потенційно небезпечних або конфіденційних дій перед їх виконанням. | Затвердження винятків менеджером, подвійна перевірка критичних даних. | Надає користувачам можливість скасовувати або підтверджувати конфіденційні операції, забезпечуючи контроль. |
| Пісочниця | Ізоляція дій агента, особливо при взаємодії із зовнішніми інструментами або додатками, у безпечному, контрольованому середовищі. | Контрольований доступ до конфіденційних систем, сегментовані мережеві середовища. | Запобігає впливу зловмисних дій на основні системи або ексфільтрації даних. |
| Контекстний АД-С | Аналіз джерел вводу та стоків виводу на предмет підозрілих потоків даних або несанкціонованих передач, виявлення шаблонів, що вказують на зловмисний намір. | Системи запобігання втраті даних (DLP), протоколи виявлення загроз від інсайдерів. | Виявляє та блокує спроби несанкціонованої ексфільтрації даних. |
| Змагальне навчання | Безперервне навчання моделей ШІ розпізнавати та протистояти маніпулятивній мові, оманливим тактикам та спробам соціальної інженерії. | Навчання з безпеки, розпізнавання фішингу та шахрайських спроб. | Покращує вроджену здатність агента виявляти та позначати зловмисний контент. |
Багатошаровий захист OpenAI у ChatGPT
OpenAI інтегрує цю модель соціальної інженерії з традиційними методами інженерії безпеки, зокрема з "аналізом джерело-стік", у ChatGPT. У цій структурі зловмиснику потрібні два ключові компоненти: "джерело" для впровадження впливу (наприклад, ненадійний зовнішній контент) і "стік" для експлуатації небезпечної можливості (наприклад, передача інформації, перехід за зловмисним посиланням або взаємодія зі скомпрометованим інструментом). Основна мета OpenAI полягає в підтримці фундаментального очікування безпеки: небезпечні дії або передача конфіденційної інформації ніколи не повинні відбуватися мовчки або без відповідних запобіжних заходів.
Багато атак на ChatGPT намагаються обманом змусити асистента витягти секретну розмовну інформацію та передати її зловмисній третій стороні. Хоча навчання безпеки OpenAI часто змушує агента відмовляти в таких запитах, критичною стратегією пом'якшення для випадків, коли агент переконаний, є Safe Url. Цей механізм спеціально розроблений для виявлення випадків, коли інформація, отримана під час розмови, може бути передана на зовнішню URL-адресу третьої сторони. У таких рідкісних випадках система або відображає інформацію користувачеві для явного підтвердження, або повністю блокує передачу, спонукаючи агента знайти альтернативний, безпечний спосіб виконання запиту користувача. Це запобігає ексфільтрації даних, навіть якщо агент на мить скомпрометований. Для отримання додаткової інформації про захист від взаємодії з посиланнями, керованої агентом, користувачі можуть звернутися до спеціальної публікації в блозі: Збереження ваших даних у безпеці, коли АІ-агент переходить за посиланням.
Роль Safe Url та пісочниці в агентному ШІ
Механізм Safe Url, призначений для виявлення та контролю передачі конфіденційних даних, розширює свій захисний діапазон за межі простого переходу за посиланнями. Аналогічні запобіжні заходи застосовуються до навігації та закладок в Atlas, а також до функцій пошуку та навігації в Deep Research. Ці програми за своєю суттю передбачають взаємодію АІ-агентів з величезними зовнішніми джерелами даних, що робить надійні засоби контролю для вихідних даних надзвичайно важливими.
Крім того, агентні функції, такі як ChatGPT Canvas та ChatGPT Apps, дотримуються схожої філософії безпеки. Коли агенти створюють та використовують функціональні додатки, ці операції обмежуються безпечним середовищем пісочниці. Ця пісочниця дозволяє виявляти несподівані комунікації або дії. Важливо, що будь-які потенційно конфіденційні або несанкціоновані взаємодії викликають запит на явну згоду користувача, гарантуючи, що користувачі зберігають повний контроль над своїми даними та поведінкою агента. Цей багатошаровий підхід, що поєднує аналіз джерело-стік з контекстною обізнаністю, згодою користувача та виконанням у пісочниці, формує надійний захист від атак ін'єкції запитів та соціальної інженерії, що постійно розвиваються. Для отримання додаткової інформації про те, як ці агентні можливості безпечно впроваджуються в експлуатацію, зверніться до обговорень щодо операціоналізації агентного ШІ.
Забезпечення майбутньої стійкості автономних агентів до ворожих атак
Забезпечення безпечної взаємодії з ворожим зовнішнім світом є не просто бажаною функцією, а необхідною основою для розробки повністю автономних АІ-агентів. Рекомендація OpenAI для розробників, які інтегрують моделі ШІ у свої додатки, полягає в тому, щоб розглянути, які засоби контролю мав би людський агент у подібній ситуації високого ризику, і впровадити аналогічні обмеження в системі ШІ.
Хоча прагнення полягає в тому, щоб максимально інтелектуальні моделі ШІ з часом ефективніше протистояли соціальній інженерії, ніж людські агенти, це не завжди є можливим або економічно ефективним безпосереднім завданням для кожного застосунку. Тому розробка систем із вбудованими обмеженнями та наглядом залишається критично важливою. OpenAI прагне постійно досліджувати наслідки соціальної інженерії проти моделей ШІ та розробляти передові засоби захисту. Ці висновки інтегруються як в їхні архітектури безпеки застосунків, так і в поточні процеси навчання їхніх моделей ШІ, забезпечуючи проактивний та адаптивний підхід до безпеки ШІ в умовах постійно мінливого ландшафту загроз. Ця далекоглядна стратегія спрямована на те, щоб зробити АІ-агентів потужними та за своєю суттю надійними, повторюючи зусилля щодо підвищення безпеки у всій екосистемі ШІ, включаючи ініціативи, такі як протидія зловмисному використанню ШІ.
Поширені запитання
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
Будьте в курсі
Отримуйте найсвіжіші новини ШІ на пошту.
