АИ Агенти: Отпорност на Вбризгување на Наредби со Социјален Инженеринг

АИ агентите брзо ги прошируваат своите способности, од пребарување на интернет до пребарување сложени информации и извршување дејства во име на корисниците. Додека овие напредоци ветуваат невидена корисност и ефикасност, тие истовремено воведуваат софистицирани нови напаѓачки површини. Главна меѓу нив е вбризгувањето на наредби—метод каде злонамерни упатства се вградени во надворешна содржина, со цел да се манипулира со АИ модел да изврши ненамерни дејства. OpenAI истакнува критична еволуција во овие напади: тие сè повеќе имитираат тактики на социјален инженеринг, барајќи фундаментална промена во стратегиите за одбрана од едноставно филтрирање на влезни податоци до робусен системски дизајн.

Еволуирачка закана: Вбризгување на наредби и социјален инженеринг

Првично, нападите со вбризгување на наредби често беа едноставни, како што е вградување директни противнички команди во статија на Википедија која АИ агент може да ја обработи. Раните модели, на кои им недостасуваше искуство во такви противнички средини за време на тренирањето, беа склони да ги следат овие експлицитни упатства без прашање. Меѓутоа, како што АИ моделите созреаа и станаа пософистицирани, нивната ранливост на такви отворени сугестии се намали. Ова ги поттикна напаѓачите да развијат понуансирани методи кои вклучуваат елементи на социјален инженеринг.

Оваа еволуција е значајна бидејќи се движи надвор од едноставното идентификување на злонамерна низа. Наместо тоа, таа ги предизвикува АИ системите да се спротивстават на погрешна или манипулативна содржина во поширок контекст, слично како што човекот би се соочил со социјален инженеринг. На пример, напад со вбризгување на наредби во 2025 година, пријавен до OpenAI, вклучуваше создавање е-пошта која изгледаше безопасна, но содржеше вградени упатства дизајнирани да измамат АИ асистент да извлече чувствителни податоци за вработени и да ги достави до „систем за валидација на усогласеност“. Овој напад покажа 50% стапка на успех во тестирањето, покажувајќи ја ефикасноста на комбинирање на барања кои звучат легитимно со злонамерни директиви. Ваквите комплексни напади често ги заобиколуваат традиционалните „АИ заштитни ѕидови“, кои обично се обидуваат да ги класифицираат влезовите врз основа на едноставни хеуристики, бидејќи откривањето на овие нијансирани манипулации станува исто толку тешко како и распознавањето лага или дезинформација без целосен ситуациски контекст.

АИ агенти како човечки пандани: Лекции од одбраните од социјален инженеринг

За да се спротивстави на овие напредни техники за вбризгување на наредби, OpenAI усвои промена на парадигмата, гледајќи го проблемот низ призмата на човечкиот социјален инженеринг. Овој пристап препознава дека целта не е совршена идентификација на секој злонамерен влез, туку дизајнирање на АИ агенти и системи така што влијанието на манипулацијата е сериозно ограничено, дури и ако нападот делумно успее. Овој начин на размислување е аналоген на управувањето со ризиците од социјален инженеринг за човечки вработени во организација.

Размислете за човечки агент за услуги на клиенти на кој му е доверена способноста да издава поврат на средства или картички за подарок. Додека агентот се стреми да му служи на клиентот, тој континуирано е изложен на надворешни влезови—од кои некои може да бидат манипулативни, па дури и принудни. Организациите го ублажуваат овој ризик со имплементација на правила, ограничувања и детерминистички системи. На пример, агент за услуги на клиенти може да има ограничување на бројот на поврати на средства што може да ги издаде, или специфични процедури за обележување сомнителни барања. Слично на тоа, АИ агент, додека работи во име на корисник, мора да има вродени ограничувања и заштитни мерки. Со замислување на АИ агенти во рамките на овој „систем со три актери“ (корисник, агент, надворешен свет), каде што агентот мора да навигира низ потенцијално непријателски надворешни влезови, дизајнерите можат да изградат отпорност. Овој пристап признава дека некои напади неизбежно ќе се провлечат, но осигурува дека нивниот потенцијал за штета е минимизиран. Овој принцип ја поддржува робусната низа контрамерки применети од OpenAI.

Принцип на одбрана	Опис	Аналогија со човечки системи	Придобивка
Ограничување	Ограничување на способностите и дејствата на агентот на претходно дефинирани, безбедни граници, спречувајќи неовластени или премногу широки операции.	Ограничувања на трошење, нивоа на овластување, спроведување политики за вработени.	Го намалува потенцијалното оштетување дури и ако агентот е делумно компромитиран.
Транспарентност	Барање експлицитна потврда од корисникот за потенцијално опасни или чувствителни дејства пред нивното извршување.	Одобрување од менаџер за исклучоци, двојна проверка на критичен внес на податоци.	Им дава моќ на корисниците да ги надминат или потврдат чувствителните операции, осигурувајќи контрола.
Песочна кутија (Sandboxing)	Изолирање на дејствата на агентот, особено при интеракција со надворешни алатки или апликации, во безбедна, надгледувана средина.	Контролиран пристап до чувствителни системи, сегментирани мрежни средини.	Спречува злонамерни дејства да влијаат на основните системи или да ексфилтрираат податоци.
Контекстуална АИ-анализа (S&S)	Анализирање на влезните извори и излезните сливови за сомнителни текови на податоци или неовластени преноси, идентификување на обрасци кои укажуваат на злонамерна намера.	Системи за спречување загуба на податоци (DLP), протоколи за откривање внатрешни закани.	Идентификува и блокира неовластени обиди за ексфилтрација на податоци.
Противничко тренирање	Континуирано тренирање на АИ модели да го препознаваат и да се спротивставуваат на манипулативен јазик, измамни тактики и обиди за социјален инженеринг.	Обука за безбедносна свест, препознавање на фишинг и обиди за измама.	Ја подобрува вродената способност на агентот да открива и означува злонамерна содржина.

Повеќеслојни одбрани на OpenAI во ChatGPT

OpenAI го интегрира овој модел на социјален инженеринг со традиционалните техники за безбедносно инженерство, особено „анализа на извор-слив“, во рамките на ChatGPT. Во оваа рамка, на напаѓачот му се потребни две клучни компоненти: „извор“ за инјектирање влијание (на пр., недоверлива надворешна содржина) и „слив“ за искористување на опасна способност (на пр., пренос на информации, следење злонамерна врска или интеракција со компромитирана алатка). Примарна цел на OpenAI е да ги одржи основните безбедносни очекувања: опасните дејства или преносот на чувствителни информации никогаш не треба да се случуваат тивко или без соодветни заштитни мерки.

Многу напади против ChatGPT се обидуваат да го измамат асистентот да извлече тајни конверзациски информации и да ги пренесе на злонамерна трета страна. Додека безбедносната обука на OpenAI често води кон тоа агентот да одбие такви барања, критична стратегија за ублажување за случаи каде агентот е убеден е Безбедна URL-адреса. Овој механизам е специјално дизајниран да открие кога информациите научени за време на разговор може да се пренесат на надворешна URL-адреса од трета страна. Во такви ретки случаи, системот или ги прикажува информациите на корисникот за експлицитна потврда или целосно го блокира преносот, поттикнувајќи го агентот да најде алтернативен, безбеден начин за исполнување на барањето на корисникот. Ова спречува ексфилтрација на податоци дури и ако агентот е моментално компромитиран. За понатамошни сознанија за заштита од интеракции со врски управувани од агенти, корисниците можат да се повикаат на посветениот блог пост, Keeping your data safe when an AI agent clicks a link.

Улогата на Безбедна URL-адреса и Песочна кутија во Агентски АИ

Механизмот Безбедна URL-адреса, дизајниран за откривање и контролирање на пренос на чувствителни податоци, го проширува својот заштитен дострел надвор од само кликови на врски. Слични заштитни мерки се применуваат на навигациите и обележувачите во Atlas и на функциите за пребарување и навигација во Deep Research. Овие апликации инхерентно вклучуваат АИ агенти кои комуницираат со огромни надворешни извори на податоци, што ги прави робусните контроли за излезни податоци од најголема важност.

Понатаму, агентските карактеристики како ChatGPT Canvas и ChatGPT Apps усвојуваат слична безбедносна филозофија. Кога агентите создаваат и користат функционални апликации, овие операции се ограничени во безбедна средина на песочна кутија. Оваа песочна кутија овозможува откривање на неочекувани комуникации или дејства. Клучно, секоја потенцијално чувствителна или неовластена интеракција предизвикува барање за експлицитна согласност од корисникот, осигурувајќи дека корисниците ја задржуваат крајната контрола над нивните податоци и однесувањето на агентот. Овој повеќеслоен пристап, комбинирајќи анализа на извор-слив со контекстуална свесност, согласност на корисникот и извршување во песочна кутија, формира робусна одбрана од еволуирачките напади со вбризгување на наредби и социјален инженеринг. За повеќе детали за тоа како овие агентски способности се операционализираат безбедно, погледнете ги дискусиите за операционализација на агентски АИ.

Идно-отпорни автономни агенти против противнички напади

Обезбедувањето безбедна интеракција со противничкиот надворешен свет не е само пожелна карактеристика, туку неопходна основа за развој на целосно автономни АИ агенти. Препораката на OpenAI за програмерите кои интегрираат АИ модели во нивните апликации е да размислат какви контроли би имал човечки агент во слична ситуација со висок ризик и да ги имплементираат тие аналогни ограничувања во АИ системот.

Додека аспирацијата е за максимално интелигентни АИ модели на крајот да се спротивстават на социјалниот инженеринг поефективно од човечките агенти, ова не е секогаш изводлива или исплатлива непосредна цел за секоја апликација. Затоа, дизајнирањето системи со вградени ограничувања и надзор останува клучно. OpenAI е посветена на континуирано истражување на импликациите на социјалниот инженеринг против АИ моделите и развивање напредни одбрани. Овие наоди се интегрирани и во нивните безбедносни архитектури за апликации и во тековните процеси на тренирање за нивните АИ модели, осигурувајќи проактивен и адаптивен пристап кон безбедноста на АИ во постојано еволуирачкиот пејзаж на закани. Оваа напредна стратегија има за цел да ги направи АИ агентите и моќни и инхерентно доверливи, одразувајќи ги напорите за подобрување на безбедноста низ целиот АИ екосистем, вклучувајќи иницијативи како попречување на злонамерните употреби на АИ.

Оригинален извор

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Често поставувани прашања

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Бидете информирани

Добивајте ги најновите AI вести на е-пошта.

Сподели