AI agenti: Otpornost na 'prompt injection' društvenim inženjeringom

title: "AI agenti: Otpornost na 'prompt injection' društvenim inženjeringom" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "hr" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "AI sigurnost" keywords:

AI agenti
prompt injection
AI sigurnost
društveni inženjering
LLM sigurnost
ChatGPT
privatnost podataka
zlonamjerni napadi
agencijska AI
OpenAI
sigurnosni inženjering
sigurni URL meta_description: "Saznajte kako OpenAI dizajnira AI agente da se odupru naprednim napadima ubrizgavanja upita ('prompt injection') korištenjem obrambenih strategija društvenog inženjeringa, osiguravajući robusnu AI sigurnost i privatnost podataka." image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "OpenAI AI agenti otporni na 'prompt injection' i napade društvenog inženjeringa" quality_score: 94 content_score: 93 seo_score: 95 companies:
OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
question: "Što je 'prompt injection' u kontekstu AI agenata?" answer: "Ubrizgavanje upita ('prompt injection') odnosi se na vrstu napada gdje su zlonamjerne upute suptilno ugrađene u vanjski sadržaj koji AI agent obrađuje. Cilj je manipulirati agentom da izvrši radnje ili otkrije informacije koje korisnik nije namjeravao niti odobrio. Ti napadi iskorištavaju sposobnost AI-ja da tumači i slijedi upute, čak i ako te upute potječu iz nepouzdanog izvora, učinkovito otimajući ponašanje agenta u neprijateljske svrhe. Rani oblici mogli bi biti izravne naredbe, ali napredni oblici koriste društveni inženjering kako bi bili manje detektabilni i uvjerljiviji, zahtijevajući sofisticirane protumjere za održavanje integriteta sustava i povjerenja korisnika."
question: "Kako se 'prompt injection' razvijao i zašto je to značajno?" answer: "Ubrizgavanje upita ('prompt injection') razvilo se od jednostavnih, eksplicitnih neprijateljskih naredbi (npr. izravne upute na web stranici) do sofisticiranih taktika društvenog inženjeringa. Rani napadi često su bili otkriveni osnovnim filtriranjem. Međutim, kako su AI modeli postajali pametniji, napadači su počeli stvarati upite koji kombiniraju zlonamjernu namjeru s naizgled legitimnim kontekstom, oponašajući ljudski društveni inženjering. Ova promjena je značajna jer znači da se obrana više ne može oslanjati isključivo na prepoznavanje zlonamjernih nizova. Umjesto toga, moraju se suočiti sa širim izazovom otpora obmanjujućem ili manipulativnom sadržaju u kontekstu, zahtijevajući holistički, sustavni pristup sigurnosti, a ne samo jednostavno filtriranje ulaza."
question: "Kako se OpenAI brani od napada 'prompt injectiona' društvenim inženjeringom?" answer: "OpenAI primjenjuje višeslojnu obrambenu strategiju, povlačeći paralele s upravljanjem rizicima ljudskog društvenog inženjeringa. To uključuje perspektivu 'sustava s tri aktera' (korisnik, agent, vanjski svijet) gdje su agentima postavljena ograničenja kako bi se ograničio potencijalni utjecaj. Ključne tehnike uključuju 'analizu izvora-ponora' ('source-sink analysis') za otkrivanje opasnih protoka podataka, mehanizme 'Safe Url' koji traže korisničku potvrdu ili blokiraju osjetljive prijenose trećim stranama, te sandboxing za agencijske alate poput ChatGPT Canvasa i Aplikacija. Sveobuhvatni cilj je osigurati da se kritične radnje ili prijenosi podataka ne događaju tiho, uvijek dajući prednost sigurnosti korisnika i pristanku za održavanje robusne AI sigurnosti."
question: "Što je 'Safe Url' i kako štiti AI agente i korisnike?" answer: "Safe Url je kritična strategija ublažavanja rizika koju je razvio OpenAI, osmišljena za zaštitu AI agenata i korisnika od neovlaštene eksfiltracije podataka. Detektira kada bi informacije koje je AI agent naučio tijekom razgovora ili interakcije mogle biti prenesene na vanjski, potencijalno zlonamjeran, URL treće strane. Kada se takav prijenos otkrije, Safe Url intervenira tako što ili prikazuje osjetljive informacije korisniku radi izričite potvrde prije slanja, ili u potpunosti blokira prijenos i nalaže agentu da pronađe alternativnu, sigurnu metodu za ispunjavanje korisničkog zahtjeva. Ovaj mehanizam osigurava da osjetljivi podaci ostanu pod kontrolom korisnika, čak i ako je agent privremeno pod utjecajem 'prompt injectiona' društvenog inženjeringa."
question: "Zašto je pristanak korisnika ključan za AI agente, pogotovo s novim mogućnostima?" answer: "Pristanak korisnika je od najveće važnosti za AI agente, posebno kako se njihove mogućnosti šire i uključuju pregledavanje, interakciju s vanjskim alatima i prijenos informacija. S naprednim taktikama 'prompt injectiona' i društvenog inženjeringa, agent bi mogao biti prevaren da izvrši radnje koje ugrožavaju privatnost ili sigurnost. Zahtijevanje izričitog pristanka korisnika za potencijalno opasne radnje — poput prijenosa osjetljivih podataka, navigacije na vanjske stranice ili korištenja vanjskih aplikacija — osigurava da korisnici zadrže konačnu kontrolu. To sprječava tihe kompromise i omogućuje korisnicima da potvrde ili odbiju radnje, djelujući kao ključni posljednji sloj obrane od manipulacije i neovlaštenog ponašanja, usklađujući se s načelima privatnosti podataka i autonomije korisnika."
question: "Što je 'analiza izvora-ponora' u kontekstu AI sigurnosti?" answer: "Analiza izvora-ponora ('source-sink analysis') je pristup sigurnosnom inženjeringu koji koristi OpenAI za prepoznavanje i ublažavanje rizika povezanih s protokom podataka unutar AI sustava. U ovom okviru, 'izvor' se odnosi na bilo koji ulazni mehanizam putem kojeg napadač može utjecati na sustav, kao što je nepouzdani vanjski sadržaj, web stranice ili e-poruke koje obrađuje AI agent. 'Ponor' se odnosi na sposobnost ili radnju koja bi, ako se zloupotrijebi, mogla postati opasna u pogrešnom kontekstu, kao što je prijenos informacija trećoj strani, slijeđenje zlonamjernog linka ili izvršavanje alata. Analizirajući potencijalne putove od izvora do ponora, sigurnosni timovi mogu implementirati kontrole za sprječavanje neovlaštenog kretanja podataka ili opasnih radnji, čak i ako je AI agent djelomično kompromitiran napadom 'prompt injectiona'. Ova metoda je fundamentalna za osiguravanje integriteta podataka i sigurnosti sustava."

AI agenti brzo proširuju svoje mogućnosti, od pregledavanja weba do dohvaćanja složenih informacija i izvršavanja radnji u ime korisnika. Iako ova napredovanja obećavaju neviđenu korisnost i učinkovitost, istodobno uvode sofisticirane nove napadne površine. Glavna među njima je 'prompt injection' — metoda gdje su zlonamjerne upute ugrađene u vanjski sadržaj, s ciljem manipuliranja AI modelom da izvrši neželjene radnje. OpenAI ističe kritičnu evoluciju ovih napada: sve više oponašaju taktike društvenog inženjeringa, zahtijevajući temeljitu promjenu u obrambenim strategijama, od jednostavnog filtriranja ulaza do robusnog sustavnog dizajna.

Razvijajuća prijetnja: 'Prompt Injection' i društveni inženjering

U početku su napadi 'prompt injectiona' često bili jednostavni, poput ugrađivanja izravnih neprijateljskih naredbi unutar Wikipedia članka koji bi AI agent mogao obraditi. Rani modeli, bez iskustva u takvim neprijateljskim okruženjima tijekom obuke, bili su skloni slijediti ove eksplicitne upute bez pitanja. Međutim, kako su se AI modeli razvijali i postajali sofisticiraniji, njihova ranjivost na takve otvorene sugestije se smanjila. To je potaknulo napadače da razviju nijansiranije metode koje uključuju elemente društvenog inženjeringa.

Ova evolucija je značajna jer nadilazi puko identificiranje zlonamjernog niza. Umjesto toga, izaziva AI sustave da se odupru obmanjujućem ili manipulativnom sadržaju unutar šireg konteksta, slično kao što bi se čovjek suočio s društvenim inženjeringom. Na primjer, napad 'prompt injectiona' iz 2025. godine prijavljen OpenAI-ju uključivao je izradu e-pošte koja je izgledala bezazleno, ali je sadržavala ugrađene upute osmišljene da prevare AI asistenta da izdvoji osjetljive podatke zaposlenika i pošalje ih 'sustavu za provjeru usklađenosti'. Ovaj napad pokazao je 50% uspješnosti u testiranju, demonstrirajući učinkovitost miješanja zahtjeva koji zvuče legitimno sa zlonamjernim direktivama. Takvi složeni napadi često zaobilaze tradicionalne sustave 'AI firewallinga', koji obično pokušavaju klasificirati ulaze na temelju jednostavnih heuristika, jer detektiranje ovih nijansiranih manipulacija postaje teško kao i razlikovanje laži ili dezinformacija bez potpunog situacijskog konteksta.

AI agenti kao ljudski dvojnici: Lekcije iz obrane od društvenog inženjeringa

Kako bi se suprotstavio ovim naprednim tehnikama 'prompt injectiona', OpenAI je usvojio paradigmu promjene, promatrajući problem kroz prizmu ljudskog društvenog inženjeringa. Ovaj pristup prepoznaje da cilj nije savršena identifikacija svakog zlonamjernog unosa, već dizajniranje AI agenata i sustava tako da je utjecaj manipulacije strogo ograničen, čak i ako napad djelomično uspije. Ovaj način razmišljanja analogan je upravljanju rizicima društvenog inženjeringa za ljudske zaposlenike unutar organizacije.

Razmotrite ljudskog agenta za korisničku podršku zaduženog za izdavanje povrata novca ili poklon kartica. Iako agent nastoji služiti korisniku, neprestano je izložen vanjskim ulazima—od kojih neki mogu biti manipulativni ili čak prisilni. Organizacije ublažavaju ovaj rizik implementacijom pravila, ograničenja i determinističkih sustava. Na primjer, agent za korisničku podršku može imati ograničenje broja povrata koje može izdati, ili specifične procedure za označavanje sumnjivih zahtjeva. Slično tome, AI agent, dok djeluje u ime korisnika, mora imati inherentna ograničenja i zaštitne mjere. Koncipiranjem AI agenata unutar ovog "sustava s tri aktera" (korisnik, agent, vanjski svijet), gdje agent mora navigirati potencijalno neprijateljskim vanjskim ulazima, dizajneri mogu ugraditi otpornost. Ovaj pristup priznaje da će neki napadi neizbježno proći, ali osigurava da je njihov potencijal za štetu minimiziran. Ovo načelo podržava robustan skup protumjera koje primjenjuje OpenAI.

Obrambeni princip	Opis	Analogija s ljudskim sustavima	Korist
Ograničenje	Ograničavanje sposobnosti i radnji agenta na unaprijed definirane, sigurne granice, sprječavanje neovlaštenih ili preširokih operacija.	Ograničenja potrošnje, razine autorizacije, provedba pravila za zaposlenike.	Smanjuje potencijalnu štetu čak i ako je agent djelomično kompromitiran.
Transparentnost	Zahtijevanje izričite potvrde korisnika za potencijalno opasne ili osjetljive radnje prije nego što se izvrše.	Odobrenje menadžera za iznimke, dvostruka provjera unosa kritičnih podataka.	Omogućuje korisnicima da nadjačaju ili potvrde osjetljive operacije, osiguravajući kontrolu.
Sandboxing	Izolacija radnji agenta, posebno pri interakciji s vanjskim alatima ili aplikacijama, unutar sigurnog, nadziranog okruženja.	Kontrolirani pristup osjetljivim sustavima, segmentirana mrežna okruženja.	Sprječava zlonamjerne radnje da utječu na osnovne sustave ili eksfiltriraju podatke.
Kontekstualna analiza izvora i ponora	Analiza ulaznih izvora i izlaznih ponora za sumnjive protoke podataka ili neovlaštene prijenose, identificiranje obrazaca koji ukazuju na zlonamjernu namjeru.	Sustavi za prevenciju gubitka podataka (DLP), protokoli za otkrivanje prijetnji iznutra.	Identificira i blokira pokušaje neovlaštene eksfiltracije podataka.
Adversarialno treniranje	Kontinuirano treniranje AI modela za prepoznavanje i otpornost na manipulativni jezik, obmanjujuće taktike i pokušaje društvenog inženjeringa.	Trening osviještenosti o sigurnosti, prepoznavanje pokušaja krađe identiteta i prijevara.	Poboljšava inherentnu sposobnost agenta da detektira i označi zlonamjerni sadržaj.

Višeslojne obrane OpenAI-ja u ChatGPT-ju

OpenAI integrira ovaj model društvenog inženjeringa s tradicionalnim tehnikama sigurnosnog inženjeringa, posebno 'analizom izvora-ponora' ('source-sink analysis'), unutar ChatGPT-ja. U ovom okviru, napadaču su potrebne dvije ključne komponente: 'izvor' za ubrizgavanje utjecaja (npr. nepouzdani vanjski sadržaj) i 'ponor' za iskorištavanje opasne sposobnosti (npr. prijenos informacija, slijeđenje zlonamjernog linka ili interakcija s kompromitiranim alatom). Primarni cilj OpenAI-ja je podržati temeljno sigurnosno očekivanje: opasne radnje ili prijenos osjetljivih informacija nikada se ne bi smjeli dogoditi tiho ili bez odgovarajućih zaštitnih mjera.

Mnogi napadi na ChatGPT pokušavaju prevariti asistenta da izdvoji tajne informacije iz razgovora i proslijedi ih zlonamjernoj trećoj strani. Dok sigurnosna obuka OpenAI-ja često dovodi agenta do odbijanja takvih zahtjeva, kritična strategija ublažavanja rizika za slučajeve kada je agent uvjeren je Safe Url. Ovaj mehanizam je posebno dizajniran za otkrivanje kada bi informacije naučene tijekom razgovora mogle biti prenesene na vanjski URL treće strane. U takvim rijetkim slučajevima, sustav ili prikazuje informacije korisniku radi izričite potvrde ili u potpunosti blokira prijenos, potičući agenta da pronađe alternativni, siguran način za ispunjavanje korisničkog zahtjeva. Ovo sprječava eksfiltraciju podataka čak i ako je agent privremeno kompromitiran. Za daljnje uvide u zaštitu od interakcija s linkovima koje pokreće agent, korisnici se mogu obratiti namjenskom blog postu, Čuvajte svoje podatke sigurnima kada AI agent klikne na link.

Uloga Safe URL-a i sandboxing-a u agencijskoj AI

Mehanizam Safe Url, dizajniran za otkrivanje i kontrolu prijenosa osjetljivih podataka, proteže svoj zaštitni doseg izvan samih klikova na linkove. Slične zaštitne mjere primjenjuju se na navigaciju i oznake unutar Atlasa te na funkcije pretraživanja i navigacije u Deep Researchu. Ove aplikacije inherentno uključuju AI agente koji komuniciraju s ogromnim vanjskim izvorima podataka, čineći robusne kontrole za odlazne podatke od iznimne važnosti.

Nadalje, agencijske značajke poput ChatGPT Canvasa i ChatGPT aplikacija usvajaju sličnu sigurnosnu filozofiju. Kada agenti stvaraju i koriste funkcionalne aplikacije, ove se operacije odvijaju unutar sigurnog sandboxed okruženja. Ovaj sandboxing omogućuje detekciju neočekivanih komunikacija ili radnji. Ključno je da sve potencijalno osjetljive ili neovlaštene interakcije pokreću zahtjev za izričitim pristankom korisnika, osiguravajući da korisnici zadrže konačnu kontrolu nad svojim podacima i ponašanjem agenta. Ovaj višeslojni pristup, kombinirajući analizu izvora-ponora s kontekstualnom sviješću, pristankom korisnika i sandboxed izvršavanjem, čini robusnu obranu od razvijajućih napada 'prompt injectiona' i društvenog inženjeringa. Za više detalja o tome kako se ove agencijske mogućnosti sigurno operacionaliziraju, pogledajte rasprave o operacionalizaciji agencijske AI.

Priprema autonomnih agenata za budućnost protiv neprijateljskih napada

Osiguravanje sigurne interakcije s neprijateljskim vanjskim svijetom nije samo poželjna značajka, već nužan temelj za razvoj potpuno autonomnih AI agenata. Preporuka OpenAI-ja za razvojne programere koji integriraju AI modele u svoje aplikacije je da razmotre koje bi kontrole ljudski agent imao u sličnoj visokorizičnoj situaciji i da implementiraju ta analogna ograničenja unutar AI sustava.

Iako je težnja da maksimalno inteligentni AI modeli s vremenom učinkovitije odolijevaju društvenom inženjeringu od ljudskih agenata, to nije uvijek izvediv ili isplativ neposredan cilj za svaku aplikaciju. Stoga, dizajniranje sustava s ugrađenim ograničenjima i nadzorom ostaje ključno. OpenAI je predan kontinuiranom istraživanju implikacija društvenog inženjeringa protiv AI modela i razvoju naprednih obrana. Ova otkrića integriraju se kako u njihove sigurnosne arhitekture aplikacija tako i u tekuće procese obuke za njihove AI modele, osiguravajući proaktivan i prilagodljiv pristup AI sigurnosti u uvijek promjenjivom pejzažu prijetnji. Ova napredna strategija ima za cilj učiniti AI agente i moćnima i inherentno pouzdanima, odražavajući napore za poboljšanje sigurnosti u cijelom AI ekosustavu, uključujući inicijative poput ometanja zlonamjernih upotreba AI-ja.

Izvorni izvor

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Često postavljana pitanja

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Budite u toku

Primajte najnovije AI vijesti na e-mail.

Podijeli