Gervigreindarumboð: Vörn gegn hvatasprautun með félagslegri verkfræði

Gervigreindarumboð (AI agents) eru hratt að auka getu sína, allt frá því að vafra á vefnum til að sækja flóknar upplýsingar og framkvæma aðgerðir fyrir hönd notenda. Þótt þessar framfarir lofi áður óþekktum notagildi og skilvirkni, skapa þær jafnframt háþróaða nýja árásarfleti. Helst þeirra er hvatasprautun (prompt injection)—aðferð þar sem skaðlegar leiðbeiningar eru faldar í ytri efni, með það að markmiði að villa um fyrir gervigreindarlíkani til að framkvæma óætlaðar aðgerðir. OpenAI leggur áherslu á mikilvæga þróun í þessum árásum: þær líkja í auknum mæli eftir aðferðum félagslegrar verkfræði (social engineering), sem krefst grundvallarbreytingar á varnaraðferðum frá einfaldri inntakssíun yfir í öfluga kerfishönnun.

Ógn í þróun: Hvatasprautun og félagsleg verkfræði

Í upphafi voru hvatasprautunarárásir oft einfaldar, svo sem að fella beinar skaðlegar skipanir inn í Wikipedia grein sem gervigreindarumboð gæti unnið úr. Fyrstu líkönin, sem skorti reynslu af slíkum skaðlegum umhverfum við þjálfun, voru líkleg til að fylgja þessum skýru leiðbeiningum án spurninga. En eftir því sem gervigreindarlíkön hafa þroskast og orðið flóknari, hefur varnarleysi þeirra fyrir slíkum augljósum uppástungum minnkað. Þetta hefur knúið árásarmenn til að þróa nákvæmari aðferðir sem fela í sér þætti félagslegrar verkfræði.

Þessi þróun er mikilvæg vegna þess að hún fer út fyrir einfaldlega að greina skaðlegan streng. Í staðinn skorar hún á gervigreindarkerfi að standast villandi eða manipulative efni í víðara samhengi, líkt og mannlegur einstaklingur stendur frammi fyrir félagslegri verkfræði. Til dæmis fólst hvatasprautunarárás árið 2025, sem greint var frá til OpenAI, í því að búa til tölvupóst sem virtist skaðlaus en innihélt faldar leiðbeiningar sem voru hannaðar til að blekkja gervigreindaraðstoðarmann til að draga út viðkvæm starfsmannagögn og senda þau til „samræmisstaðfestingarkerfis“. Þessi árás sýndi 50% árangur í prófunum, sem sýnir fram á virkni þess að blanda lögmætum beiðnum við skaðlegar skipanir. Slíkar flóknar árásir fara oft framhjá hefðbundnum „gervigreindarellemúrum“ sem venjulega reyna að flokka inntök út frá einföldum hugmyndum, því að greina þessar nákvæmu blekkingar verður jafn erfitt og að greina lygi eða rangar upplýsingar án fulls samhengis.

Gervigreindarumboð sem mannlegir starfsmenn: Lærdómur af vörnum gegn félagslegri verkfræði

Til að vinna gegn þessum háþróuðu hvatasprautunaraðferðum hefur OpenAI tekið upp nýja hugmyndafræði, með því að skoða vandamálið í ljósi félagslegrar verkfræði manna. Þessi nálgun gerir ráð fyrir að markmiðið sé ekki fullkomin greining á hverju skaðlegu inntaki, heldur að hanna gervigreindarumboð og kerfi þannig að áhrif blekkingar séu verulega takmörkuð, jafnvel þótt árás nái að hluta til árangri. Þessi hugsunarháttur er sambærilegur við áhættustýringu vegna félagslegrar verkfræði fyrir starfsmenn innan fyrirtækis.

Hugsum okkur mannlegan þjónustufulltrúa sem hefur heimild til að gefa út endurgreiðslur eða gjafakort. Þó að fulltrúinn stefni að því að þjóna viðskiptavinum, verður hann stöðugt fyrir ytri áhrifum – sumar þeirra geta verið blekkjandi eða jafnvel þvingandi. Fyrirtæki draga úr þessari áhættu með því að innleiða reglur, takmarkanir og ákvarðanir. Til dæmis gæti þjónustufulltrúi haft hámark á fjölda endurgreiðslna sem hann getur gefið út, eða sérstakar verklagsreglur til að merkja grunsamlegar beiðnir. Á sama hátt verður gervigreindarumboð, þegar það starfar fyrir hönd notanda, að hafa innbyggðar takmarkanir og varnir. Með því að skilgreina gervigreindarumboð innan þessa „þriggja aðila kerfis“ (notandi, umboð, ytri heimur), þar sem umboðið verður að sigla um hugsanlega fjandsamleg ytri áhrif, geta hönnuðir byggt upp seiglu. Þessi nálgun viðurkennir að sumar árásir munu óhjákvæmilega sleppa í gegn, en tryggir að hugsanlegt tjón þeirra sé í lágmarki. Þessi meginregla liggur að baki öflugri pakka af mótvægisaðgerðum sem OpenAI hefur þróað.

Varnarheimspeki	Lýsing	Samlíking við mannleg kerfi	Ávinningur
Takmörkun	Takmörkun getu og aðgerða umboðsins við fyrirfram skilgreind, örugg mörk, sem kemur í veg fyrir óleyfilegar eða of víðtækar aðgerðir.	Útgjaldatakmarkanir, heimildarþrep, framkvæmd reglna fyrir starfsmenn.	Dregur úr hugsanlegu tjóni jafnvel þótt umboð sé að hluta til í hættu.
Gegnsæi	Krefjast skýrrar staðfestingar notanda fyrir hugsanlega hættulegar eða viðkvæmar aðgerðir áður en þær eru framkvæmdar.	Samþykki stjórnanda fyrir undantekningum, tvöföld athugun á mikilvægum gagnafærslum.	Veitir notendum vald til að breyta eða staðfesta viðkvæmar aðgerðir, sem tryggir stjórn.
Einangrun (Sandboxing)	Einangrun aðgerða umboðsins, sérstaklega þegar það hefur samskipti við ytri tól eða forrit, innan öruggs, vaktaðs umhverfis.	Stýrður aðgangur að viðkvæmum kerfum, skipt netumhverfi.	Kemur í veg fyrir að skaðlegar aðgerðir hafi áhrif á kjarnakerfi eða fjarlægi gögn.
Samhengisbundin uppruna-útstreymisgreining	Greining á inntaksheimildum og úttaksstöðum fyrir grunsamlegt gagnastreymi eða óleyfilegar sendingar, til að bera kennsl á mynstur sem benda til skaðlegs ásetnings.	Kerfi til að koma í veg fyrir gagnatap (DLP), greining á innherjaógn.	Greinir og stöðvar óleyfilegar tilraunir til gagnasóknar.
Andstæðingurþjálfun	Stöðug þjálfun gervigreindarlíkana til að þekkja og standast manipulative tungumál, blekkjandi aðferðir og tilraunir til félagslegrar verkfræði.	Öryggisvitundarþjálfun, þekking á vefveiðum og svikum.	Bætir innbyggða getu umboðsins til að greina og flagga skaðlegu efni.

Marglaga varnir OpenAI í ChatGPT

OpenAI samþættir þessa félagslegu verkfræðimódel með hefðbundnum öryggisverkfræðiaðferðum, sérstaklega „uppruna-útstreymisgreiningu“, innan ChatGPT. Í þessum ramma þarf árásarmaður tvo lykilþætti: „uppruna“ til að sprauta inn áhrifum (t.d. óáreiðanlegt ytra efni) og „útstreymi“ til að nýta hættulega getu (t.d. að senda upplýsingar, fylgja skaðlegum hlekk eða hafa samskipti við tól sem er í hættu). Aðalmarkmið OpenAI er að halda uppi grundvallaröryggisvæntingu: hættulegar aðgerðir eða sending viðkvæmra upplýsinga ættu aldrei að eiga sér stað án vitundar eða án viðeigandi varna.

Margar árásir á ChatGPT reyna að blekkja aðstoðarmanninn til að draga út leynilegar upplýsingar úr samtölum og senda þær til skaðlegs þriðja aðila. Þó að öryggisþjálfun OpenAI fái umboðið oft til að neita slíkum beiðnum, er lykilvarnaraðferð fyrir þau tilfelli þar sem umboðið er sannfært Safe Url. Þessi vélbúnaður er sérstaklega hannaður til að greina hvenær upplýsingar sem gervigreindarumboð hefur lært í samtali gætu verið sendar til ytri vefslóðar þriðja aðila. Í slíkum sjaldgæfum tilfellum grípur kerfið inn í með því annaðhvort að sýna notandanum upplýsingarnar til skýrrar staðfestingar eða stöðvar sendinguna alveg og biður umboðið að finna aðra, örugga leið til að uppfylla beiðni notandans. Þetta kemur í veg fyrir gagnasókn jafnvel þótt umboðið sé tímabundið í hættu. Fyrir frekari innsýn í hvernig á að verjast samskiptum umboða við hlekki, geta notendur skoðað sérstaka bloggfærslu, Hvernig halda skal gögnum öruggum þegar gervigreindarumboð smellir á hlekk.

Hlutverk Safe URL og einangrunar (sandboxing) í umboðsgervigreind

Safe Url vélbúnaðurinn, sem er hannaður til að greina og stjórna sendingu viðkvæmra gagna, nær vernd sinni lengra en bara smell á hlekk. Sambærilegar varnir eru notaðar við vafur og bókamerki innan Atlas og fyrir leit og vafursvirkni í Deep Research. Þessi forrit fela í sér að gervigreindarumboð hafa samskipti við gríðarstórar ytri gagnagjafir, sem gerir öfluga stjórnun á útleiðandi gögnum afar mikilvæga.

Enn fremur tileinka sér umboðsvirkni eins og ChatGPT Canvas og ChatGPT Apps svipaða öryggisheimspeki. Þegar umboð búa til og nýta virk forrit, eru þessar aðgerðir takmarkaðar innan öruggs einangrunarumhverfis (sandbox). Þessi einangrun gerir kleift að greina óvænt samskipti eða aðgerðir. Mikilvægt er að öll hugsanlega viðkvæm eða óleyfileg samskipti kalli á skýra staðfestingu notanda, sem tryggir að notendur haldi fullkominni stjórn á gögnum sínum og hegðun umboðsins. Þessi marglaga nálgun, sem sameinar uppruna-útstreymisgreiningu með samhengisvitund, samþykki notanda og einangraðri framkvæmd, myndar öfluga vörn gegn hvatasprautun og félagslegum verkfræðiárásum sem eru í stöðugri þróun. Fyrir nánari upplýsingar um hvernig þessi umboðsgeta er nýtt á öruggan hátt, sjá umræður um öryggi við notkun umboðsgervigreindar.

Framtíðarvörn sjálfstæðra umboða gegn skaðlegum árásum

Að tryggja örugg samskipti við óvissulegan ytri heim er ekki bara æskilegur eiginleiki heldur nauðsynlegur grundvöllur fyrir þróun fullkomlega sjálfstæðra gervigreindarumboða. Ráðleggingar OpenAI til þróunaraðila sem samþætta gervigreindarlíkön í forrit sín eru að íhuga hvaða stýringar mannlegur umboðsmaður hefði í svipaðri mikilvægri stöðu og að innleiða þessar sambærilegu takmarkanir innan gervigreindarkerfisins.

Þó að vonin sé sú að hámarks greind gervigreindarlíkön muni að lokum standast félagslega verkfræði á skilvirkari hátt en mannlegir umboðsmenn, er þetta ekki alltaf raunhæft eða hagkvæmt nærtækt markmið fyrir hvert forrit. Því er hönnun kerfa með innbyggðum takmörkunum og eftirliti áfram mikilvæg. OpenAI er skuldbundið til að rannsaka stöðugt áhrif félagslegrar verkfræði á gervigreindarlíkön og þróa háþróaðar varnir. Þessar niðurstöður eru samþættar bæði í öryggisarkitektúr forrita þeirra og í áframhaldandi þjálfunarferli fyrir gervigreindarlíkön þeirra, sem tryggir fyrirbyggjandi og aðlögunarhæfa nálgun á gervigreindaröryggi í síbreytilegu ógnarlandslagi. Þessi framsýna stefna miðar að því að gera gervigreindarumboð bæði öflug og í eðli sínu áreiðanleg, og endurspeglar viðleitni til að auka öryggi í öllu gervigreindarkerfinu, þar á meðal verkefni eins og stöðvun skaðlegrar notkunar gervigreindar.

Upprunaleg heimild

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Algengar spurningar

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Fylgstu með

Fáðu nýjustu gervigreindarfréttirnar í pósthólfið.

Deila