DI agentai: atsparumas raginimų injekcijai socialinės inžinerijos būdu

DI agentai sparčiai plečia savo galimybes, pradedant naršymu internete ir baigiant sudėtingos informacijos paieška bei veiksmų vykdymu vartotojų vardu. Nors šios pažangos žada beprecedentį naudingumą ir efektyvumą, jos tuo pat metu sukuria sudėtingus naujus atakų paviršius. Svarbiausia iš jų yra raginimų injekcija – metodas, kai kenkėjiškos instrukcijos įterpiamos į išorinį turinį, siekiant manipuliuoti DI modeliu, kad jis atliktų nepageidaujamus veiksmus. OpenAI pabrėžia kritinę šių atakų evoliuciją: jos vis dažniau imituoja socialinės inžinerijos taktikas, reikalaujančias esminio gynybos strategijų pokyčio nuo paprasto įvesties filtravimo iki tvirto sisteminio projektavimo.

Besivystanti grėsmė: raginimų injekcija ir socialinė inžinerija

Iš pradžių raginimų injekcijos atakos dažnai būdavo tiesmukiškos, pavyzdžiui, tiesioginių priešiškų komandų įterpimas į Vikipedijos straipsnį, kurį galėjo apdoroti DI agentas. Ankstyvieji modeliai, neturėdami mokymo metu įgytos patirties tokiose priešiškose aplinkose, buvo linkę vykdyti šias aiškias instrukcijas be klausimų. Tačiau, DI modeliams bręstant ir tampant sudėtingesniems, jų pažeidžiamumas tokiems atviriems pasiūlymams sumažėjo. Tai paskatino užpuolikus kurti niuansuotesnius metodus, apimančius socialinės inžinerijos elementus.

Ši evoliucija yra reikšminga, nes ji peržengia vien kenkėjiškos eilutės identifikavimą. Vietoj to, ji meta iššūkį DI sistemoms atsispirti klaidinančiam ar manipuliuojančiam turiniui platesniame kontekste, panašiai kaip žmogus susidurtų su socialine inžinerija. Pavyzdžiui, 2025 m. „OpenAI“ pranešta raginimų injekcijos ataka apėmė el. laiško, kuris atrodė nekenksmingas, bet turėjo įterptų instrukcijų, skirtų apgauti DI asistentą, kad šis išgautų slaptus darbuotojų duomenis ir pateiktų juos „atitikties patvirtinimo sistemai“. Ši ataka testavimo metu parodė 50 % sėkmės rodiklį, demonstruodama teisėtai skambančių užklausų derinimo su kenkėjiškomis direktyvomis efektyvumą. Tokios sudėtingos atakos dažnai apeina tradicines „DI ugniasienės“ sistemas, kurios paprastai bando klasifikuoti įvestis pagal paprastas heuristikas, nes aptikti šias subtilias manipuliacijas tampa taip pat sunku, kaip atskirti melą ar dezinformaciją be viso situacinio konteksto.

DI agentai kaip žmonių atitikmenys: socialinės inžinerijos gynybos pamokos

Siekiant atremti šias pažangias raginimų injekcijos technikas, OpenAI priėmė paradigmos pokytį, žvelgdama į problemą per žmogiškosios socialinės inžinerijos prizmę. Šis požiūris pripažįsta, kad tikslas nėra tobulai identifikuoti kiekvieną kenkėjišką įvestį, o veikiau sukurti DI agentus ir sistemas taip, kad manipuliacijos poveikis būtų griežtai apribotas, net jei ataka iš dalies pavyktų. Šis mąstymo būdas yra analogiškas socialinės inžinerijos rizikos valdymui žmogiškiems darbuotojams organizacijoje.

Įsivaizduokite žmogų klientų aptarnavimo agentą, kuriam patikėta galimybė išduoti pinigų grąžinimus ar dovanų korteles. Nors agentas siekia aptarnauti klientą, jis nuolat susiduria su išorinėmis įvestimis – kai kurios iš jų gali būti manipuliacinės ar net prievartinės. Organizacijos sumažina šią riziką, įgyvendindamos taisykles, apribojimus ir deterministines sistemas. Pavyzdžiui, klientų aptarnavimo agentas gali turėti apribojimą dėl išduodamų grąžinimų skaičiaus arba konkrečias procedūras įtartiniems prašymams pažymėti. Panašiai, DI agentas, veikdamas vartotojo vardu, turi turėti įgimtus apribojimus ir apsaugos priemones. Įsivaizduojant DI agentus šioje „trijų veikėjų sistemoje“ (vartotojas, agentas, išorinis pasaulis), kur agentas turi naršyti potencialiai priešiškas išorines įvestis, kūrėjai gali įdiegti atsparumą. Šis požiūris pripažįsta, kad kai kurios atakos neišvengiamai prasiskverbs, tačiau užtikrina, kad jų žalos potencialas būtų minimizuotas. Šis principas yra tvirtų OpenAI įdiegtų atsakomųjų priemonių pagrindas.

Gynybos principas	Aprašymas	Analogija žmogiškosioms sistemoms	Nauda
Apribojimas	Agentų galimybių ir veiksmų apribojimas iš anksto nustatytomis, saugiomis ribomis, užkertant kelią neteisėtoms ar per plačioms operacijoms.	Išlaidų limitai, autorizacijos lygiai, politikos vykdymas darbuotojams.	Sumažina potencialią žalą, net jei agentas yra iš dalies pažeistas.
Skaidrumas	Reikalavimas aiškaus vartotojo patvirtinimo prieš vykdant potencialiai pavojingus ar jautrius veiksmus.	Vadovo patvirtinimas išimtims, dvigubas svarbių duomenų įvedimo patikrinimas.	Suteikia vartotojams galimybę atšaukti arba patvirtinti jautrias operacijas, užtikrinant kontrolę.
Smėlio dėžė (Sandboxing)	Agentų veiksmų izoliavimas, ypač sąveikaujant su išoriniais įrankiais ar programomis, saugioje, stebimoje aplinkoje.	Kontroliuojama prieiga prie jautrių sistemų, segmentuotos tinklo aplinkos.	Apsaugo nuo kenkėjiškų veiksmų, turinčių įtakos pagrindinėms sistemoms ar duomenų nutekėjimo.
Kontekstinė Š&G analizė (S&S)	Įvesties šaltinių ir išvesties gilumų analizavimas dėl įtartinų duomenų srautų ar neteisėto perdavimo, identifikuojant kenkėjišką ketinimą rodančius modelius.	Duomenų praradimo prevencijos (DLP) sistemos, vidinių grėsmių aptikimo protokolai.	Identifikuoja ir blokuoja neteisėtus duomenų nutekėjimo bandymus.
Priešiškas mokymas	Nuolatinis DI modelių mokymas atpažinti ir atsispirti manipuliuojančiai kalbai, apgaulingoms taktikoms ir socialinės inžinerijos bandymams.	Saugumo sąmoningumo mokymai, sukčiavimo (phishing) ir apgavysčių atpažinimas.	Pagerina agento įgimtą gebėjimą aptikti ir pažymėti kenkėjišką turinį.

OpenAI daugiasluoksnė gynyba „ChatGPT“

OpenAI integruoja šį socialinės inžinerijos modelį su tradicinėmis saugumo inžinerijos technikomis, ypač „šaltinio-gilumine analize“, „ChatGPT“ viduje. Šioje sistemoje užpuolikui reikia dviejų pagrindinių komponentų: „šaltinio“ įtakai įterpti (pvz., nepatikimo išorinio turinio) ir „gilumos“, kad būtų išnaudota pavojinga galimybė (pvz., informacijos perdavimas, kenkėjiškos nuorodos sekimas arba sąveika su pažeistu įrankiu). Pagrindinis OpenAI tikslas yra palaikyti esminį saugumo reikalavimą: pavojingi veiksmai ar slaptos informacijos perdavimas niekada neturėtų vykti tyliai ar be tinkamų apsaugos priemonių.

Daugelis atakų prieš „ChatGPT“ bando apgauti asistentą, kad šis išgautų slaptą pokalbių informaciją ir perduotų ją kenkėjiškai trečiajai šaliai. Nors OpenAI saugos mokymai dažnai priverčia agentą atsisakyti tokių prašymų, kritinė rizikos mažinimo strategija tais atvejais, kai agentas yra įtikintas, yra „Safe Url“. Šis mechanizmas specialiai sukurtas aptikti, kada pokalbio metu įgyta informacija gali būti perduota į išorinį trečiosios šalies URL. Tokiais retais atvejais sistema arba parodo informaciją vartotojui aiškiam patvirtinimui, arba visiškai blokuoja perdavimą, liepdama agentui rasti alternatyvų, saugų būdą įvykdyti vartotojo prašymą. Tai apsaugo nuo duomenų nutekėjimo, net jei agentas akimirkai yra pažeistas. Norėdami gauti daugiau informacijos apie apsaugą nuo agentų valdomų nuorodų sąveikos, vartotojai gali perskaityti specialų tinklaraščio įrašą: Saugokite savo duomenis, kai DI agentas paspaudžia nuorodą.

„Safe URL“ ir smėlio dėžės (Sandboxing) vaidmuo agentiniame DI

„Safe Url“ mechanizmas, skirtas aptikti ir kontroliuoti slaptų duomenų perdavimą, išplečia savo apsauginę aprėptį už paprastų nuorodų paspaudimų. Panašios apsaugos priemonės taikomos naršymui ir žymėms „Atlas“ sistemoje bei paieškos ir naršymo funkcijoms „Deep Research“. Šios programos iš esmės apima DI agentus, sąveikaujančius su dideliais išoriniais duomenų šaltiniais, todėl tvirtos išsiunčiamų duomenų kontrolės yra itin svarbios.

Be to, agentinės funkcijos, tokios kaip „ChatGPT Canvas“ ir „ChatGPT Apps“, taiko panašią saugumo filosofiją. Kai agentai kuria ir naudoja funkcines programas, šios operacijos yra apribotos saugioje smėlio dėžės aplinkoje. Ši smėlio dėžės aplinka leidžia aptikti netikėtus ryšius ar veiksmus. Svarbiausia, bet kokia potencialiai jautri ar neteisėta sąveika sukelia aiškų vartotojo sutikimo prašymą, užtikrinant, kad vartotojai išlaikytų galutinę savo duomenų ir agento elgesio kontrolę. Šis daugiasluoksnis požiūris, derinantis šaltinio-giluminę analizę su kontekstine žinute, vartotojo sutikimu ir vykdymu smėlio dėžėje, sudaro tvirtą gynybą nuo besivystančių raginimų injekcijos ir socialinės inžinerijos atakų. Išsamesnės informacijos apie tai, kaip šios agentinės galimybės yra saugiai įgyvendinamos, ieškokite diskusijose apie agentinio DI operacionalizavimą.

Autonominių agentų apsauga nuo priešiškų atakų ateityje

Saugios sąveikos su priešišku išoriniu pasauliu užtikrinimas yra ne tik pageidaujama funkcija, bet ir būtinas pagrindas visiškai autonominių DI agentų kūrimui. OpenAI rekomendacija kūrėjams, integruojantiems DI modelius į savo programas, yra apsvarstyti, kokias kontrolės priemones turėtų žmogaus agentas panašioje didelės rizikos situacijoje ir įdiegti analogiškus apribojimus DI sistemoje.

Nors siekis yra, kad maksimaliai protingi DI modeliai galiausiai veiksmingiau atsispirtų socialinei inžinerijai nei žmogiškieji agentai, tai ne visada yra įgyvendinamas ar ekonomiškai efektyvus artimiausias tikslas kiekvienai programai. Todėl sistemų, turinčių įmontuotus apribojimus ir priežiūrą, projektavimas išlieka kritiškai svarbus. OpenAI yra įsipareigojusi nuolat tirti socialinės inžinerijos poveikį DI modeliams ir kurti pažangią gynybą. Šios išvados integruojamos tiek į jų programų saugumo architektūras, tiek į nuolatinius jų DI modelių mokymo procesus, užtikrinant proaktyvų ir adaptyvų požiūrį į DI saugumą nuolat kintančioje grėsmių aplinkoje. Šia į ateitį orientuota strategija siekiama, kad DI agentai būtų galingi ir iš prigimties patikimi, atkartojant pastangas didinti saugumą visoje DI ekosistemoje, įskaitant tokias iniciatyvas kaip kenkėjiško DI naudojimo trikdymas.

Originalus šaltinis

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Dažniausiai užduodami klausimai

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Būkite informuoti

Gaukite naujausias AI naujienas el. paštu.

Dalintis