Tehisintellekti agendid: vastu hakkamine viipade sisestamisele sotsiaalse inseneeria abil

Tehisintellekti agendid laiendavad kiiresti oma võimeid, alates veebi sirvimisest kuni keerulise teabe hankimiseni ja toimingute sooritamiseni kasutajate nimel. Kuigi need edusammud lubavad enneolematut kasulikkust ja tõhusust, toovad need samal ajal kaasa ka keerukaid uusi rünnakupindu. Peamine neist on viipade sisestamine – meetod, kus pahatahtlikud juhised on sisse ehitatud välisesse sisusse, eesmärgiga manipuleerida tehisintellekti mudelit sooritama soovimatuid toiminguid. OpenAI toob esile kriitilise arengu nendes rünnakutes: need jäljendavad üha enam sotsiaalse inseneeria taktikat, nõudes kaitse strateegiates fundamentaalset nihet lihtsast sisendi filtreerimisest tugeva süsteemse disainini.

Arenev oht: viipade sisestamine ja sotsiaalne inseneeria

Algselt olid viipade sisestamise rünnakud sageli otsesed, näiteks otseste vastandlike käskude sisestamine Wikipedia artiklisse, mida tehisintellekti agent võiks töödelda. Varajased mudelid, kellel puudus treeninguaegne kogemus sellistes vastandlikes keskkondades, kippusid neid selgeid juhiseid küsimata järgima. Kuid tehisintellekti mudelite küpsedes ja keerukamaks muutudes on nende haavatavus sellistele otsestele soovitustele vähenenud. See on ajendanud ründajaid välja töötama nüansirikkamaid meetodeid, mis hõlmavad sotsiaalse inseneeria elemente.

See areng on oluline, sest see ulatub kaugemale pahatahtliku stringi tuvastamisest. Selle asemel paneb see tehisintellekti süsteemid proovile, et need suudaksid vastu seista eksitavale või manipuleerivale sisule laiemas kontekstis, täpselt nagu inimene seisaks silmitsi sotsiaalse inseneeriaga. Näiteks 2025. aasta viipade sisestamise rünnak, millest teatati OpenAI-le, hõlmas e-kirja koostamist, mis näis ohutu, kuid sisaldas sisseehitatud juhiseid, mis olid loodud petma tehisintellekti assistenti, et see eraldaks tundlikud töötajate andmed ja edastaks need 'vastavuse valideerimise süsteemi'. See rünnak näitas testimisel 50% edukust, demonstreerides legitiimselt kõlavate taotluste segamise efektiivsust pahatahtlike direktiividega. Sellised keerulised rünnakud mööduvad sageli traditsioonilistest 'tehisintellekti tulemüüri' süsteemidest, mis tavaliselt püüavad sisendeid klassifitseerida lihtsate heuristikate alusel, sest nende nüansiliste manipulatsioonide tuvastamine muutub sama keeruliseks kui vale või desinformatsiooni eristamine ilma täieliku olukorrakontekstita.

Tehisintellekti agendid kui inimvastased: õppetunnid sotsiaalse inseneeria kaitsest

Nende täiustatud viipade sisestamise tehnikate vastu võitlemiseks on OpenAI võtnud kasutusele paradigmamuutuse, vaadeldes probleemi inimeste sotsiaalse inseneeria prisma läbi. See lähenemine tunnistab, et eesmärk ei ole iga pahatahtliku sisendi täiuslik tuvastamine, vaid pigem tehisintellekti agentide ja süsteemide kavandamine nii, et manipulatsiooni mõju oleks tugevalt piiratud, isegi kui rünnak osaliselt õnnestub. See mõtteviis on analoogiline sotsiaalse inseneeria riskide juhtimisega inimtöötajate jaoks organisatsioonis.

Mõelge inimestest koosnevale klienditeenindajale, kellele on usaldatud võimalus väljastada tagasimakseid või kinkekaarte. Kuigi agenti eesmärk on klienti teenindada, puutub ta pidevalt kokku väliste sisenditega – millest mõned võivad olla manipuleerivad või isegi sunniviisilised. Organisatsioonid leevendavad seda riski reeglite, piirangute ja deterministlike süsteemide rakendamisega. Näiteks võib klienditeenindajal olla piirang tagasimaksete arvule, mida ta saab väljastada, või konkreetsed protseduurid kahtlaste taotluste märkimiseks. Samamoodi peab tehisintellekti agendil, kes tegutseb kasutaja nimel, olema sisemised piirangud ja kaitsemeetmed. Kujutledes tehisintellekti agente selles 'kolme osapoole süsteemis' (kasutaja, agent, välismaailm), kus agent peab navigeerima potentsiaalselt vaenulike väliste sisendite vahel, saavad disainerid sisse ehitada vastupidavuse. See lähenemine tunnistab, et mõned rünnakud libisevad paratamatult läbi, kuid tagab, et nende potentsiaalne kahju on minimeeritud. See põhimõte toetab OpenAI poolt rakendatud tugevat vastumeetmete komplekti.

Kaitsepõhimõte	Kirjeldus	Analoogia inimsüsteemidega	Kasu
Piirangud	Agendi võimete ja toimingute piiramine eelnevalt määratletud, turvaliste piiridega, vältides volitamata või liiga laiaulatuslikke toiminguid.	Kululimiidid, autoriseerimistasandid, eeskirjade jõustamine töötajatele.	Vähendab potentsiaalset kahju isegi siis, kui agent on osaliselt kompromiteeritud.
Läbipaistvus	Nõudes selgesõnalist kasutaja kinnitust potentsiaalselt ohtlike või tundlike toimingute jaoks enne nende täitmist.	Juhi heakskiit eranditele, kriitiliste andmesisestuste topeltkontroll.	Annab kasutajatele õiguse tundlikke toiminguid tühistada või kinnitada, tagades kontrolli.
Liivakastikeskkond (Sandboxing)	Agendi toimingute isoleerimine, eriti väliste tööriistade või rakendustega suhtlemisel, turvalises, jälgitavas keskkonnas.	Kontrollitud juurdepääs tundlikele süsteemidele, segmenteeritud võrgukeskkonnad.	Väldib pahatahtlike toimingute mõju põhisüsteemidele või andmete väljaimemist.
Kontekstuaalne A&N	Sisendallikate ja väljundneelajate analüüsimine kahtlaste andmevoogude või volitamata edastuste osas, tuvastades pahatahtlikku kavatsust viitavad mustrid.	Andmekaotsuse vältimise (DLP) süsteemid, sisemiste ohtude tuvastamise protokollid.	Tuvastab ja blokeerib volitamata andmete väljaimemise katsed.
Vastandlik koolitus	Tehisintellekti mudelite pidev koolitamine manipuleeriva keele, petlike taktikate ja sotsiaalse inseneeria katsete tuvastamiseks ja neile vastupanemiseks.	Turvateadlikkuse koolitus, andmepüügi ja pettuse katsete äratundmine.	Parandab agendi sisemist võimet tuvastada ja märgistada pahatahtlikku sisu.

OpenAI mitmekihilised kaitsed ChatGPT-s

OpenAI integreerib selle sotsiaalse inseneeria mudeli traditsiooniliste turbetehnika tehnikatega, eriti 'allika-neelaja analüüsiga', ChatGPT-s. Selles raamistikus vajab ründaja kahte põhikomponenti: 'allikat' mõju sisestamiseks (nt ebausaldusväärne väline sisu) ja 'neelajat' ohtliku võime ärakasutamiseks (nt teabe edastamine, pahatahtliku lingi järgimine või kompromiteeritud tööriistaga suhtlemine). OpenAI peamine eesmärk on järgida põhilist turvaootust: ohtlikud toimingud või tundliku teabe edastamine ei tohiks kunagi toimuda vaikselt või ilma asjakohaste kaitsemeetmeteta.

Paljud rünnakud ChatGPT vastu püüavad petta assistenti eraldama salajast vestlusteavet ja edastama seda pahatahtlikule kolmandale osapoolele. Kuigi OpenAI ohutuskoolitus viib agendi sageli sellistest taotlustest keeldumiseni, on kriitiline leevendusstrateegia juhtudel, kus agent on veendunud, Safe Url. See mehhanism on spetsiaalselt loodud tuvastama, millal vestluse käigus õpitud teavet võidakse edastada välisele kolmanda osapoole URL-ile. Sellistel harvadel juhtudel kuvab süsteem teabe kasutajale kas selgesõnaliseks kinnitamiseks või blokeerib edastuse täielikult, juhendades agenti leidma alternatiivse, turvalise viisi kasutaja soovi täitmiseks. See takistab andmete väljaimemist isegi siis, kui agent on hetkeks kompromiteeritud. Lisateabe saamiseks agentide juhitud lingiinteraktsioonide vastu kaitsmise kohta saavad kasutajad vaadata pühendatud ajaveebipostitust, Hoides oma andmeid turvaliselt, kui tehisintellekti agent klõpsab lingile.

Safe URL-i ja liivakastikeskkonna roll agentsele tehisintellektile

Safe Url mehhanism, mis on loodud tundliku andmeedastuse tuvastamiseks ja kontrollimiseks, laiendab oma kaitsvat ulatust kaugemale pelgalt lingiklõpsudest. Sarnaseid kaitsemeetmeid rakendatakse navigatsioonidele ja järjehoidjatele Atlas'es ning otsingu- ja navigeerimisfunktsioonidele Deep Research'is. Need rakendused hõlmavad oma olemuselt tehisintellekti agente, kes suhtlevad ulatuslike väliste andmeallikatega, muutes väljuvate andmete jaoks tugevad kontrollid ülimalt oluliseks.

Lisaks võtavad agentide funktsioonid, nagu ChatGPT Canvas ja ChatGPT Apps, kasutusele sarnase turvafilosoofia. Kui agendid loovad ja kasutavad funktsionaalseid rakendusi, on need toimingud piiratud turvalises liivakastikeskkonnas. See liivakastikeskkond võimaldab tuvastada ootamatuid kommunikatsioone või toiminguid. Kriitiliselt oluline on, et kõik potentsiaalselt tundlikud või volitamata interaktsioonid käivitavad taotluse selgesõnalise kasutaja nõusoleku saamiseks, tagades, et kasutajad säilitavad ülima kontrolli oma andmete ja agendi käitumise üle. See mitmekihiline lähenemine, mis ühendab allika-neelaja analüüsi kontekstiteadlikkuse, kasutaja nõusoleku ja liivakastikeskkonnas täitmisega, moodustab tugeva kaitse arenevate viipade sisestamise ja sotsiaalse inseneeria rünnakute vastu. Lisateabe saamiseks selle kohta, kuidas neid agentide võimeid turvaliselt opereeritakse, vaadake arutelusid teemal agentse tehisintellekti opereerimine.

Autonoomsete agentide tulevikukindlaks muutmine vastandlike rünnakute vastu

Ohutu suhtlemise tagamine vaenuliku välismaailmaga ei ole pelgalt soovitav omadus, vaid vajalik alus täiesti autonoomsete tehisintellekti agentide arendamiseks. OpenAI soovitus arendajatele, kes integreerivad tehisintellekti mudeleid oma rakendustesse, on kaaluda, millised kontrollid oleks inimagendil sarnases kõrge panusega olukorras, ja rakendada neid analoogilisi piiranguid tehisintellekti süsteemis.

Kuigi püüdluseks on, et maksimaalselt intelligentsed tehisintellekti mudelid suudaksid lõpuks sotsiaalsele inseneeriale vastu seista tõhusamalt kui inimagendid, ei ole see iga rakenduse puhul alati teostatav või kulutõhus kohene eesmärk. Seetõttu jääb kriitilise tähtsusega süsteemide kavandamine sisseehitatud piirangute ja järelevalvega. OpenAI on pühendunud sotsiaalse inseneeria mõjude pidevale uurimisele tehisintellekti mudelite vastu ja täiustatud kaitsesüsteemide arendamisele. Need tulemused integreeritakse nii nende rakenduste turvaarhidektuuridesse kui ka nende tehisintellekti mudelite pidevatesse koolitusprotsessidesse, tagades proaktiivse ja adaptiivse lähenemise tehisintellekti turvalisusele pidevalt arenevas ohtude maastikus. See tulevikku vaatav strateegia eesmärk on muuta tehisintellekti agendid nii võimsaks kui ka olemuslikult usaldusväärseks, kajastades jõupingutusi turvalisuse suurendamiseks kogu tehisintellekti ökosüsteemis, sealhulgas algatusi nagu pahatahtliku tehisintellekti kasutamise takistamine.

Algallikas

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Korduma kippuvad küsimused

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Püsige kursis

Saage värskeimad AI uudised oma postkasti.

Jaga