Gervigreindarumboð (AI agents) eru hratt að auka getu sína, allt frá því að vafra á vefnum til að sækja flóknar upplýsingar og framkvæma aðgerðir fyrir hönd notenda. Þótt þessar framfarir lofi áður óþekktum notagildi og skilvirkni, skapa þær jafnframt háþróaða nýja árásarfleti. Helst þeirra er hvatasprautun (prompt injection)—aðferð þar sem skaðlegar leiðbeiningar eru faldar í ytri efni, með það að markmiði að villa um fyrir gervigreindarlíkani til að framkvæma óætlaðar aðgerðir. OpenAI leggur áherslu á mikilvæga þróun í þessum árásum: þær líkja í auknum mæli eftir aðferðum félagslegrar verkfræði (social engineering), sem krefst grundvallarbreytingar á varnaraðferðum frá einfaldri inntakssíun yfir í öfluga kerfishönnun.
Ógn í þróun: Hvatasprautun og félagsleg verkfræði
Í upphafi voru hvatasprautunarárásir oft einfaldar, svo sem að fella beinar skaðlegar skipanir inn í Wikipedia grein sem gervigreindarumboð gæti unnið úr. Fyrstu líkönin, sem skorti reynslu af slíkum skaðlegum umhverfum við þjálfun, voru líkleg til að fylgja þessum skýru leiðbeiningum án spurninga. En eftir því sem gervigreindarlíkön hafa þroskast og orðið flóknari, hefur varnarleysi þeirra fyrir slíkum augljósum uppástungum minnkað. Þetta hefur knúið árásarmenn til að þróa nákvæmari aðferðir sem fela í sér þætti félagslegrar verkfræði.
Þessi þróun er mikilvæg vegna þess að hún fer út fyrir einfaldlega að greina skaðlegan streng. Í staðinn skorar hún á gervigreindarkerfi að standast villandi eða manipulative efni í víðara samhengi, líkt og mannlegur einstaklingur stendur frammi fyrir félagslegri verkfræði. Til dæmis fólst hvatasprautunarárás árið 2025, sem greint var frá til OpenAI, í því að búa til tölvupóst sem virtist skaðlaus en innihélt faldar leiðbeiningar sem voru hannaðar til að blekkja gervigreindaraðstoðarmann til að draga út viðkvæm starfsmannagögn og senda þau til „samræmisstaðfestingarkerfis“. Þessi árás sýndi 50% árangur í prófunum, sem sýnir fram á virkni þess að blanda lögmætum beiðnum við skaðlegar skipanir. Slíkar flóknar árásir fara oft framhjá hefðbundnum „gervigreindarellemúrum“ sem venjulega reyna að flokka inntök út frá einföldum hugmyndum, því að greina þessar nákvæmu blekkingar verður jafn erfitt og að greina lygi eða rangar upplýsingar án fulls samhengis.
Gervigreindarumboð sem mannlegir starfsmenn: Lærdómur af vörnum gegn félagslegri verkfræði
Til að vinna gegn þessum háþróuðu hvatasprautunaraðferðum hefur OpenAI tekið upp nýja hugmyndafræði, með því að skoða vandamálið í ljósi félagslegrar verkfræði manna. Þessi nálgun gerir ráð fyrir að markmiðið sé ekki fullkomin greining á hverju skaðlegu inntaki, heldur að hanna gervigreindarumboð og kerfi þannig að áhrif blekkingar séu verulega takmörkuð, jafnvel þótt árás nái að hluta til árangri. Þessi hugsunarháttur er sambærilegur við áhættustýringu vegna félagslegrar verkfræði fyrir starfsmenn innan fyrirtækis.
Hugsum okkur mannlegan þjónustufulltrúa sem hefur heimild til að gefa út endurgreiðslur eða gjafakort. Þó að fulltrúinn stefni að því að þjóna viðskiptavinum, verður hann stöðugt fyrir ytri áhrifum – sumar þeirra geta verið blekkjandi eða jafnvel þvingandi. Fyrirtæki draga úr þessari áhættu með því að innleiða reglur, takmarkanir og ákvarðanir. Til dæmis gæti þjónustufulltrúi haft hámark á fjölda endurgreiðslna sem hann getur gefið út, eða sérstakar verklagsreglur til að merkja grunsamlegar beiðnir. Á sama hátt verður gervigreindarumboð, þegar það starfar fyrir hönd notanda, að hafa innbyggðar takmarkanir og varnir. Með því að skilgreina gervigreindarumboð innan þessa „þriggja aðila kerfis“ (notandi, umboð, ytri heimur), þar sem umboðið verður að sigla um hugsanlega fjandsamleg ytri áhrif, geta hönnuðir byggt upp seiglu. Þessi nálgun viðurkennir að sumar árásir munu óhjákvæmilega sleppa í gegn, en tryggir að hugsanlegt tjón þeirra sé í lágmarki. Þessi meginregla liggur að baki öflugri pakka af mótvægisaðgerðum sem OpenAI hefur þróað.
| Varnarheimspeki | Lýsing | Samlíking við mannleg kerfi | Ávinningur |
|---|---|---|---|
| Takmörkun | Takmörkun getu og aðgerða umboðsins við fyrirfram skilgreind, örugg mörk, sem kemur í veg fyrir óleyfilegar eða of víðtækar aðgerðir. | Útgjaldatakmarkanir, heimildarþrep, framkvæmd reglna fyrir starfsmenn. | Dregur úr hugsanlegu tjóni jafnvel þótt umboð sé að hluta til í hættu. |
| Gegnsæi | Krefjast skýrrar staðfestingar notanda fyrir hugsanlega hættulegar eða viðkvæmar aðgerðir áður en þær eru framkvæmdar. | Samþykki stjórnanda fyrir undantekningum, tvöföld athugun á mikilvægum gagnafærslum. | Veitir notendum vald til að breyta eða staðfesta viðkvæmar aðgerðir, sem tryggir stjórn. |
| Einangrun (Sandboxing) | Einangrun aðgerða umboðsins, sérstaklega þegar það hefur samskipti við ytri tól eða forrit, innan öruggs, vaktaðs umhverfis. | Stýrður aðgangur að viðkvæmum kerfum, skipt netumhverfi. | Kemur í veg fyrir að skaðlegar aðgerðir hafi áhrif á kjarnakerfi eða fjarlægi gögn. |
| Samhengisbundin uppruna-útstreymisgreining | Greining á inntaksheimildum og úttaksstöðum fyrir grunsamlegt gagnastreymi eða óleyfilegar sendingar, til að bera kennsl á mynstur sem benda til skaðlegs ásetnings. | Kerfi til að koma í veg fyrir gagnatap (DLP), greining á innherjaógn. | Greinir og stöðvar óleyfilegar tilraunir til gagnasóknar. |
| Andstæðingurþjálfun | Stöðug þjálfun gervigreindarlíkana til að þekkja og standast manipulative tungumál, blekkjandi aðferðir og tilraunir til félagslegrar verkfræði. | Öryggisvitundarþjálfun, þekking á vefveiðum og svikum. | Bætir innbyggða getu umboðsins til að greina og flagga skaðlegu efni. |
Marglaga varnir OpenAI í ChatGPT
OpenAI samþættir þessa félagslegu verkfræðimódel með hefðbundnum öryggisverkfræðiaðferðum, sérstaklega „uppruna-útstreymisgreiningu“, innan ChatGPT. Í þessum ramma þarf árásarmaður tvo lykilþætti: „uppruna“ til að sprauta inn áhrifum (t.d. óáreiðanlegt ytra efni) og „útstreymi“ til að nýta hættulega getu (t.d. að senda upplýsingar, fylgja skaðlegum hlekk eða hafa samskipti við tól sem er í hættu). Aðalmarkmið OpenAI er að halda uppi grundvallaröryggisvæntingu: hættulegar aðgerðir eða sending viðkvæmra upplýsinga ættu aldrei að eiga sér stað án vitundar eða án viðeigandi varna.
Margar árásir á ChatGPT reyna að blekkja aðstoðarmanninn til að draga út leynilegar upplýsingar úr samtölum og senda þær til skaðlegs þriðja aðila. Þó að öryggisþjálfun OpenAI fái umboðið oft til að neita slíkum beiðnum, er lykilvarnaraðferð fyrir þau tilfelli þar sem umboðið er sannfært Safe Url. Þessi vélbúnaður er sérstaklega hannaður til að greina hvenær upplýsingar sem gervigreindarumboð hefur lært í samtali gætu verið sendar til ytri vefslóðar þriðja aðila. Í slíkum sjaldgæfum tilfellum grípur kerfið inn í með því annaðhvort að sýna notandanum upplýsingarnar til skýrrar staðfestingar eða stöðvar sendinguna alveg og biður umboðið að finna aðra, örugga leið til að uppfylla beiðni notandans. Þetta kemur í veg fyrir gagnasókn jafnvel þótt umboðið sé tímabundið í hættu. Fyrir frekari innsýn í hvernig á að verjast samskiptum umboða við hlekki, geta notendur skoðað sérstaka bloggfærslu, Hvernig halda skal gögnum öruggum þegar gervigreindarumboð smellir á hlekk.
Hlutverk Safe URL og einangrunar (sandboxing) í umboðsgervigreind
Safe Url vélbúnaðurinn, sem er hannaður til að greina og stjórna sendingu viðkvæmra gagna, nær vernd sinni lengra en bara smell á hlekk. Sambærilegar varnir eru notaðar við vafur og bókamerki innan Atlas og fyrir leit og vafursvirkni í Deep Research. Þessi forrit fela í sér að gervigreindarumboð hafa samskipti við gríðarstórar ytri gagnagjafir, sem gerir öfluga stjórnun á útleiðandi gögnum afar mikilvæga.
Enn fremur tileinka sér umboðsvirkni eins og ChatGPT Canvas og ChatGPT Apps svipaða öryggisheimspeki. Þegar umboð búa til og nýta virk forrit, eru þessar aðgerðir takmarkaðar innan öruggs einangrunarumhverfis (sandbox). Þessi einangrun gerir kleift að greina óvænt samskipti eða aðgerðir. Mikilvægt er að öll hugsanlega viðkvæm eða óleyfileg samskipti kalli á skýra staðfestingu notanda, sem tryggir að notendur haldi fullkominni stjórn á gögnum sínum og hegðun umboðsins. Þessi marglaga nálgun, sem sameinar uppruna-útstreymisgreiningu með samhengisvitund, samþykki notanda og einangraðri framkvæmd, myndar öfluga vörn gegn hvatasprautun og félagslegum verkfræðiárásum sem eru í stöðugri þróun. Fyrir nánari upplýsingar um hvernig þessi umboðsgeta er nýtt á öruggan hátt, sjá umræður um öryggi við notkun umboðsgervigreindar.
Framtíðarvörn sjálfstæðra umboða gegn skaðlegum árásum
Að tryggja örugg samskipti við óvissulegan ytri heim er ekki bara æskilegur eiginleiki heldur nauðsynlegur grundvöllur fyrir þróun fullkomlega sjálfstæðra gervigreindarumboða. Ráðleggingar OpenAI til þróunaraðila sem samþætta gervigreindarlíkön í forrit sín eru að íhuga hvaða stýringar mannlegur umboðsmaður hefði í svipaðri mikilvægri stöðu og að innleiða þessar sambærilegu takmarkanir innan gervigreindarkerfisins.
Þó að vonin sé sú að hámarks greind gervigreindarlíkön muni að lokum standast félagslega verkfræði á skilvirkari hátt en mannlegir umboðsmenn, er þetta ekki alltaf raunhæft eða hagkvæmt nærtækt markmið fyrir hvert forrit. Því er hönnun kerfa með innbyggðum takmörkunum og eftirliti áfram mikilvæg. OpenAI er skuldbundið til að rannsaka stöðugt áhrif félagslegrar verkfræði á gervigreindarlíkön og þróa háþróaðar varnir. Þessar niðurstöður eru samþættar bæði í öryggisarkitektúr forrita þeirra og í áframhaldandi þjálfunarferli fyrir gervigreindarlíkön þeirra, sem tryggir fyrirbyggjandi og aðlögunarhæfa nálgun á gervigreindaröryggi í síbreytilegu ógnarlandslagi. Þessi framsýna stefna miðar að því að gera gervigreindarumboð bæði öflug og í eðli sínu áreiðanleg, og endurspeglar viðleitni til að auka öryggi í öllu gervigreindarkerfinu, þar á meðal verkefni eins og stöðvun skaðlegrar notkunar gervigreindar.
Upprunaleg heimild
https://openai.com/index/designing-agents-to-resist-prompt-injection/Algengar spurningar
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
Fylgstu með
Fáðu nýjustu gervigreindarfréttirnar í pósthólfið.
