title: "AI agenti: Otpornost na 'prompt injection' društvenim inženjeringom" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "hr" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "AI sigurnost" keywords:
- AI agenti
- prompt injection
- AI sigurnost
- društveni inženjering
- LLM sigurnost
- ChatGPT
- privatnost podataka
- zlonamjerni napadi
- agencijska AI
- OpenAI
- sigurnosni inženjering
- sigurni URL meta_description: "Saznajte kako OpenAI dizajnira AI agente da se odupru naprednim napadima ubrizgavanja upita ('prompt injection') korištenjem obrambenih strategija društvenog inženjeringa, osiguravajući robusnu AI sigurnost i privatnost podataka." image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "OpenAI AI agenti otporni na 'prompt injection' i napade društvenog inženjeringa" quality_score: 94 content_score: 93 seo_score: 95 companies:
- OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
- question: "Što je 'prompt injection' u kontekstu AI agenata?" answer: "Ubrizgavanje upita ('prompt injection') odnosi se na vrstu napada gdje su zlonamjerne upute suptilno ugrađene u vanjski sadržaj koji AI agent obrađuje. Cilj je manipulirati agentom da izvrši radnje ili otkrije informacije koje korisnik nije namjeravao niti odobrio. Ti napadi iskorištavaju sposobnost AI-ja da tumači i slijedi upute, čak i ako te upute potječu iz nepouzdanog izvora, učinkovito otimajući ponašanje agenta u neprijateljske svrhe. Rani oblici mogli bi biti izravne naredbe, ali napredni oblici koriste društveni inženjering kako bi bili manje detektabilni i uvjerljiviji, zahtijevajući sofisticirane protumjere za održavanje integriteta sustava i povjerenja korisnika."
- question: "Kako se 'prompt injection' razvijao i zašto je to značajno?" answer: "Ubrizgavanje upita ('prompt injection') razvilo se od jednostavnih, eksplicitnih neprijateljskih naredbi (npr. izravne upute na web stranici) do sofisticiranih taktika društvenog inženjeringa. Rani napadi često su bili otkriveni osnovnim filtriranjem. Međutim, kako su AI modeli postajali pametniji, napadači su počeli stvarati upite koji kombiniraju zlonamjernu namjeru s naizgled legitimnim kontekstom, oponašajući ljudski društveni inženjering. Ova promjena je značajna jer znači da se obrana više ne može oslanjati isključivo na prepoznavanje zlonamjernih nizova. Umjesto toga, moraju se suočiti sa širim izazovom otpora obmanjujućem ili manipulativnom sadržaju u kontekstu, zahtijevajući holistički, sustavni pristup sigurnosti, a ne samo jednostavno filtriranje ulaza."
- question: "Kako se OpenAI brani od napada 'prompt injectiona' društvenim inženjeringom?" answer: "OpenAI primjenjuje višeslojnu obrambenu strategiju, povlačeći paralele s upravljanjem rizicima ljudskog društvenog inženjeringa. To uključuje perspektivu 'sustava s tri aktera' (korisnik, agent, vanjski svijet) gdje su agentima postavljena ograničenja kako bi se ograničio potencijalni utjecaj. Ključne tehnike uključuju 'analizu izvora-ponora' ('source-sink analysis') za otkrivanje opasnih protoka podataka, mehanizme 'Safe Url' koji traže korisničku potvrdu ili blokiraju osjetljive prijenose trećim stranama, te sandboxing za agencijske alate poput ChatGPT Canvasa i Aplikacija. Sveobuhvatni cilj je osigurati da se kritične radnje ili prijenosi podataka ne događaju tiho, uvijek dajući prednost sigurnosti korisnika i pristanku za održavanje robusne AI sigurnosti."
- question: "Što je 'Safe Url' i kako štiti AI agente i korisnike?" answer: "Safe Url je kritična strategija ublažavanja rizika koju je razvio OpenAI, osmišljena za zaštitu AI agenata i korisnika od neovlaštene eksfiltracije podataka. Detektira kada bi informacije koje je AI agent naučio tijekom razgovora ili interakcije mogle biti prenesene na vanjski, potencijalno zlonamjeran, URL treće strane. Kada se takav prijenos otkrije, Safe Url intervenira tako što ili prikazuje osjetljive informacije korisniku radi izričite potvrde prije slanja, ili u potpunosti blokira prijenos i nalaže agentu da pronađe alternativnu, sigurnu metodu za ispunjavanje korisničkog zahtjeva. Ovaj mehanizam osigurava da osjetljivi podaci ostanu pod kontrolom korisnika, čak i ako je agent privremeno pod utjecajem 'prompt injectiona' društvenog inženjeringa."
- question: "Zašto je pristanak korisnika ključan za AI agente, pogotovo s novim mogućnostima?" answer: "Pristanak korisnika je od najveće važnosti za AI agente, posebno kako se njihove mogućnosti šire i uključuju pregledavanje, interakciju s vanjskim alatima i prijenos informacija. S naprednim taktikama 'prompt injectiona' i društvenog inženjeringa, agent bi mogao biti prevaren da izvrši radnje koje ugrožavaju privatnost ili sigurnost. Zahtijevanje izričitog pristanka korisnika za potencijalno opasne radnje — poput prijenosa osjetljivih podataka, navigacije na vanjske stranice ili korištenja vanjskih aplikacija — osigurava da korisnici zadrže konačnu kontrolu. To sprječava tihe kompromise i omogućuje korisnicima da potvrde ili odbiju radnje, djelujući kao ključni posljednji sloj obrane od manipulacije i neovlaštenog ponašanja, usklađujući se s načelima privatnosti podataka i autonomije korisnika."
- question: "Što je 'analiza izvora-ponora' u kontekstu AI sigurnosti?" answer: "Analiza izvora-ponora ('source-sink analysis') je pristup sigurnosnom inženjeringu koji koristi OpenAI za prepoznavanje i ublažavanje rizika povezanih s protokom podataka unutar AI sustava. U ovom okviru, 'izvor' se odnosi na bilo koji ulazni mehanizam putem kojeg napadač može utjecati na sustav, kao što je nepouzdani vanjski sadržaj, web stranice ili e-poruke koje obrađuje AI agent. 'Ponor' se odnosi na sposobnost ili radnju koja bi, ako se zloupotrijebi, mogla postati opasna u pogrešnom kontekstu, kao što je prijenos informacija trećoj strani, slijeđenje zlonamjernog linka ili izvršavanje alata. Analizirajući potencijalne putove od izvora do ponora, sigurnosni timovi mogu implementirati kontrole za sprječavanje neovlaštenog kretanja podataka ili opasnih radnji, čak i ako je AI agent djelomično kompromitiran napadom 'prompt injectiona'. Ova metoda je fundamentalna za osiguravanje integriteta podataka i sigurnosti sustava."
AI agenti brzo proširuju svoje mogućnosti, od pregledavanja weba do dohvaćanja složenih informacija i izvršavanja radnji u ime korisnika. Iako ova napredovanja obećavaju neviđenu korisnost i učinkovitost, istodobno uvode sofisticirane nove napadne površine. Glavna među njima je 'prompt injection' — metoda gdje su zlonamjerne upute ugrađene u vanjski sadržaj, s ciljem manipuliranja AI modelom da izvrši neželjene radnje. OpenAI ističe kritičnu evoluciju ovih napada: sve više oponašaju taktike društvenog inženjeringa, zahtijevajući temeljitu promjenu u obrambenim strategijama, od jednostavnog filtriranja ulaza do robusnog sustavnog dizajna.
Razvijajuća prijetnja: 'Prompt Injection' i društveni inženjering
U početku su napadi 'prompt injectiona' često bili jednostavni, poput ugrađivanja izravnih neprijateljskih naredbi unutar Wikipedia članka koji bi AI agent mogao obraditi. Rani modeli, bez iskustva u takvim neprijateljskim okruženjima tijekom obuke, bili su skloni slijediti ove eksplicitne upute bez pitanja. Međutim, kako su se AI modeli razvijali i postajali sofisticiraniji, njihova ranjivost na takve otvorene sugestije se smanjila. To je potaknulo napadače da razviju nijansiranije metode koje uključuju elemente društvenog inženjeringa.
Ova evolucija je značajna jer nadilazi puko identificiranje zlonamjernog niza. Umjesto toga, izaziva AI sustave da se odupru obmanjujućem ili manipulativnom sadržaju unutar šireg konteksta, slično kao što bi se čovjek suočio s društvenim inženjeringom. Na primjer, napad 'prompt injectiona' iz 2025. godine prijavljen OpenAI-ju uključivao je izradu e-pošte koja je izgledala bezazleno, ali je sadržavala ugrađene upute osmišljene da prevare AI asistenta da izdvoji osjetljive podatke zaposlenika i pošalje ih 'sustavu za provjeru usklađenosti'. Ovaj napad pokazao je 50% uspješnosti u testiranju, demonstrirajući učinkovitost miješanja zahtjeva koji zvuče legitimno sa zlonamjernim direktivama. Takvi složeni napadi često zaobilaze tradicionalne sustave 'AI firewallinga', koji obično pokušavaju klasificirati ulaze na temelju jednostavnih heuristika, jer detektiranje ovih nijansiranih manipulacija postaje teško kao i razlikovanje laži ili dezinformacija bez potpunog situacijskog konteksta.
AI agenti kao ljudski dvojnici: Lekcije iz obrane od društvenog inženjeringa
Kako bi se suprotstavio ovim naprednim tehnikama 'prompt injectiona', OpenAI je usvojio paradigmu promjene, promatrajući problem kroz prizmu ljudskog društvenog inženjeringa. Ovaj pristup prepoznaje da cilj nije savršena identifikacija svakog zlonamjernog unosa, već dizajniranje AI agenata i sustava tako da je utjecaj manipulacije strogo ograničen, čak i ako napad djelomično uspije. Ovaj način razmišljanja analogan je upravljanju rizicima društvenog inženjeringa za ljudske zaposlenike unutar organizacije.
Razmotrite ljudskog agenta za korisničku podršku zaduženog za izdavanje povrata novca ili poklon kartica. Iako agent nastoji služiti korisniku, neprestano je izložen vanjskim ulazima—od kojih neki mogu biti manipulativni ili čak prisilni. Organizacije ublažavaju ovaj rizik implementacijom pravila, ograničenja i determinističkih sustava. Na primjer, agent za korisničku podršku može imati ograničenje broja povrata koje može izdati, ili specifične procedure za označavanje sumnjivih zahtjeva. Slično tome, AI agent, dok djeluje u ime korisnika, mora imati inherentna ograničenja i zaštitne mjere. Koncipiranjem AI agenata unutar ovog "sustava s tri aktera" (korisnik, agent, vanjski svijet), gdje agent mora navigirati potencijalno neprijateljskim vanjskim ulazima, dizajneri mogu ugraditi otpornost. Ovaj pristup priznaje da će neki napadi neizbježno proći, ali osigurava da je njihov potencijal za štetu minimiziran. Ovo načelo podržava robustan skup protumjera koje primjenjuje OpenAI.
| Obrambeni princip | Opis | Analogija s ljudskim sustavima | Korist |
|---|---|---|---|
| Ograničenje | Ograničavanje sposobnosti i radnji agenta na unaprijed definirane, sigurne granice, sprječavanje neovlaštenih ili preširokih operacija. | Ograničenja potrošnje, razine autorizacije, provedba pravila za zaposlenike. | Smanjuje potencijalnu štetu čak i ako je agent djelomično kompromitiran. |
| Transparentnost | Zahtijevanje izričite potvrde korisnika za potencijalno opasne ili osjetljive radnje prije nego što se izvrše. | Odobrenje menadžera za iznimke, dvostruka provjera unosa kritičnih podataka. | Omogućuje korisnicima da nadjačaju ili potvrde osjetljive operacije, osiguravajući kontrolu. |
| Sandboxing | Izolacija radnji agenta, posebno pri interakciji s vanjskim alatima ili aplikacijama, unutar sigurnog, nadziranog okruženja. | Kontrolirani pristup osjetljivim sustavima, segmentirana mrežna okruženja. | Sprječava zlonamjerne radnje da utječu na osnovne sustave ili eksfiltriraju podatke. |
| Kontekstualna analiza izvora i ponora | Analiza ulaznih izvora i izlaznih ponora za sumnjive protoke podataka ili neovlaštene prijenose, identificiranje obrazaca koji ukazuju na zlonamjernu namjeru. | Sustavi za prevenciju gubitka podataka (DLP), protokoli za otkrivanje prijetnji iznutra. | Identificira i blokira pokušaje neovlaštene eksfiltracije podataka. |
| Adversarialno treniranje | Kontinuirano treniranje AI modela za prepoznavanje i otpornost na manipulativni jezik, obmanjujuće taktike i pokušaje društvenog inženjeringa. | Trening osviještenosti o sigurnosti, prepoznavanje pokušaja krađe identiteta i prijevara. | Poboljšava inherentnu sposobnost agenta da detektira i označi zlonamjerni sadržaj. |
Višeslojne obrane OpenAI-ja u ChatGPT-ju
OpenAI integrira ovaj model društvenog inženjeringa s tradicionalnim tehnikama sigurnosnog inženjeringa, posebno 'analizom izvora-ponora' ('source-sink analysis'), unutar ChatGPT-ja. U ovom okviru, napadaču su potrebne dvije ključne komponente: 'izvor' za ubrizgavanje utjecaja (npr. nepouzdani vanjski sadržaj) i 'ponor' za iskorištavanje opasne sposobnosti (npr. prijenos informacija, slijeđenje zlonamjernog linka ili interakcija s kompromitiranim alatom). Primarni cilj OpenAI-ja je podržati temeljno sigurnosno očekivanje: opasne radnje ili prijenos osjetljivih informacija nikada se ne bi smjeli dogoditi tiho ili bez odgovarajućih zaštitnih mjera.
Mnogi napadi na ChatGPT pokušavaju prevariti asistenta da izdvoji tajne informacije iz razgovora i proslijedi ih zlonamjernoj trećoj strani. Dok sigurnosna obuka OpenAI-ja često dovodi agenta do odbijanja takvih zahtjeva, kritična strategija ublažavanja rizika za slučajeve kada je agent uvjeren je Safe Url. Ovaj mehanizam je posebno dizajniran za otkrivanje kada bi informacije naučene tijekom razgovora mogle biti prenesene na vanjski URL treće strane. U takvim rijetkim slučajevima, sustav ili prikazuje informacije korisniku radi izričite potvrde ili u potpunosti blokira prijenos, potičući agenta da pronađe alternativni, siguran način za ispunjavanje korisničkog zahtjeva. Ovo sprječava eksfiltraciju podataka čak i ako je agent privremeno kompromitiran. Za daljnje uvide u zaštitu od interakcija s linkovima koje pokreće agent, korisnici se mogu obratiti namjenskom blog postu, Čuvajte svoje podatke sigurnima kada AI agent klikne na link.
Uloga Safe URL-a i sandboxing-a u agencijskoj AI
Mehanizam Safe Url, dizajniran za otkrivanje i kontrolu prijenosa osjetljivih podataka, proteže svoj zaštitni doseg izvan samih klikova na linkove. Slične zaštitne mjere primjenjuju se na navigaciju i oznake unutar Atlasa te na funkcije pretraživanja i navigacije u Deep Researchu. Ove aplikacije inherentno uključuju AI agente koji komuniciraju s ogromnim vanjskim izvorima podataka, čineći robusne kontrole za odlazne podatke od iznimne važnosti.
Nadalje, agencijske značajke poput ChatGPT Canvasa i ChatGPT aplikacija usvajaju sličnu sigurnosnu filozofiju. Kada agenti stvaraju i koriste funkcionalne aplikacije, ove se operacije odvijaju unutar sigurnog sandboxed okruženja. Ovaj sandboxing omogućuje detekciju neočekivanih komunikacija ili radnji. Ključno je da sve potencijalno osjetljive ili neovlaštene interakcije pokreću zahtjev za izričitim pristankom korisnika, osiguravajući da korisnici zadrže konačnu kontrolu nad svojim podacima i ponašanjem agenta. Ovaj višeslojni pristup, kombinirajući analizu izvora-ponora s kontekstualnom sviješću, pristankom korisnika i sandboxed izvršavanjem, čini robusnu obranu od razvijajućih napada 'prompt injectiona' i društvenog inženjeringa. Za više detalja o tome kako se ove agencijske mogućnosti sigurno operacionaliziraju, pogledajte rasprave o operacionalizaciji agencijske AI.
Priprema autonomnih agenata za budućnost protiv neprijateljskih napada
Osiguravanje sigurne interakcije s neprijateljskim vanjskim svijetom nije samo poželjna značajka, već nužan temelj za razvoj potpuno autonomnih AI agenata. Preporuka OpenAI-ja za razvojne programere koji integriraju AI modele u svoje aplikacije je da razmotre koje bi kontrole ljudski agent imao u sličnoj visokorizičnoj situaciji i da implementiraju ta analogna ograničenja unutar AI sustava.
Iako je težnja da maksimalno inteligentni AI modeli s vremenom učinkovitije odolijevaju društvenom inženjeringu od ljudskih agenata, to nije uvijek izvediv ili isplativ neposredan cilj za svaku aplikaciju. Stoga, dizajniranje sustava s ugrađenim ograničenjima i nadzorom ostaje ključno. OpenAI je predan kontinuiranom istraživanju implikacija društvenog inženjeringa protiv AI modela i razvoju naprednih obrana. Ova otkrića integriraju se kako u njihove sigurnosne arhitekture aplikacija tako i u tekuće procese obuke za njihove AI modele, osiguravajući proaktivan i prilagodljiv pristup AI sigurnosti u uvijek promjenjivom pejzažu prijetnji. Ova napredna strategija ima za cilj učiniti AI agente i moćnima i inherentno pouzdanima, odražavajući napore za poboljšanje sigurnosti u cijelom AI ekosustavu, uključujući inicijative poput ometanja zlonamjernih upotreba AI-ja.
Često postavljana pitanja
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
Budite u toku
Primajte najnovije AI vijesti na e-mail.
