AI-agenter: Modstand mod prompt-injektion gennem Social Engineering

AI-agenter udvider hurtigt deres kapaciteter, fra at browse på nettet til at hente kompleks information og udføre handlinger på vegne af brugere. Mens disse fremskridt lover hidtil uset nytte og effektivitet, introducerer de samtidig sofistikerede nye angrebsflader. Blandt disse er prompt-injektion – en metode, hvor ondsindede instruktioner er indlejret i eksternt indhold med det formål at manipulere en AI-model til at udføre utilsigtet handlinger. OpenAI fremhæver en kritisk udvikling i disse angreb: De efterligner i stigende grad social engineering-taktikker, hvilket kræver et grundlæggende skift i forsvarsstrategier fra simpel inputfiltrering til robust systemisk design.

Oprindeligt var prompt-injektionsangreb ofte ligetil, som f.eks. at indlejre direkte fjendtlige kommandoer i en Wikipedia-artikel, som en AI-agent kunne behandle. Tidlige modeller, der manglede træningserfaring i sådanne fjendtlige miljøer, var tilbøjelige til at følge disse eksplicitte instruktioner uden spørgsmål. Men efterhånden som AI-modeller er modnet og blevet mere sofistikerede, er deres sårbarhed over for sådanne åbenlyse forslag mindsket. Dette har ansporet angribere til at udvikle mere nuancerede metoder, der indarbejder elementer af social engineering.

Denne udvikling er betydningsfuld, fordi den rækker ud over blot at identificere en ondsindet streng. I stedet udfordrer den AI-systemer til at modstå misvisende eller manipulerende indhold inden for en bredere kontekst, ligesom et menneske ville stå over for social engineering. For eksempel involverede et prompt-injektionsangreb i 2025, rapporteret til OpenAI, udformning af en e-mail, der virkede uskyldig, men som indeholdt indlejrede instruktioner designet til at narre en AI-assistent til at udtrække følsomme medarbejderdata og sende dem til et "compliance validation system." Dette angreb viste en 50 % succesrate i test, hvilket demonstrerer effektiviteten af at blande legitimt klingende anmodninger med ondsindede direktiver. Sådanne komplekse angreb omgår ofte traditionelle "AI firewalling"-systemer, som typisk forsøger at klassificere inputs baseret på simple heuristikker, fordi detektering af disse nuancerede manipulationer bliver lige så vanskelig som at skelne en løgn eller vildledende information uden fuld situationsbestemt kontekst.

For at imødegå disse avancerede prompt-injektionsteknikker har OpenAI vedtaget et paradigmeskifte og betragter problemet gennem linsen af menneskelig social engineering. Denne tilgang anerkender, at målet ikke er perfekt identifikation af ethvert ondsindet input, men snarere design af AI-agenter og -systemer, så effekten af manipulation er stærkt begrænset, selv hvis et angreb delvist lykkes. Denne tankegang er analog med håndtering af social engineering-risici for menneskelige medarbejdere inden for en organisation.

Overvej en menneskelig kundeserviceagent, der har fået tildelt evnen til at udstede refusioner eller gavekort. Mens agenten sigter mod at servicere kunden, udsættes de konstant for eksterne inputs – hvoraf nogle kan være manipulerende eller endda tvangsprægede. Organisationer afbøder denne risiko ved at implementere regler, begrænsninger og deterministiske systemer. For eksempel kan en kundeserviceagent have en grænse for antallet af refusioner, de kan udstede, eller specifikke procedurer til at markere mistænkelige anmodninger. Tilsvarende skal en AI-agent, mens den opererer på vegne af en bruger, have iboende begrænsninger og sikkerhedsforanstaltninger. Ved at opfatte AI-agenter inden for dette "tre-aktør-system" (bruger, agent, omverden), hvor agenten skal navigere i potentielt fjendtlige eksterne inputs, kan designere indbygge modstandsdygtighed. Denne tilgang anerkender, at nogle angreb uundgåeligt vil slippe igennem, men sikrer, at deres potentiale for skade minimeres. Dette princip ligger til grund for en robust pakke af modforanstaltninger implementeret af OpenAI.

Forsvarsprincip	Beskrivelse	Analogi til menneskelige systemer	Fordel
Begrænsning	Begrænsning af agentens kapaciteter og handlinger til foruddefinerede, sikre grænser, hvilket forhindrer uautoriserede eller for brede operationer.	Forbrugsgrænser, godkendelsesniveauer, håndhævelse af politikker for medarbejdere.	Reducerer potentiel skade, selv hvis en agent delvist er kompromitteret.
Gennemsigtighed	Kræver eksplicit brugerbekræftelse for potentielt farlige eller følsomme handlinger, før de udføres.	Ledergodkendelse for undtagelser, dobbeltkontrol af kritiske dataindtastninger.	Giver brugere mulighed for at tilsidesætte eller bekræfte følsomme handlinger, hvilket sikrer kontrol.
Sandboxing	Isolering af agentens handlinger, især ved interaktion med eksterne værktøjer eller applikationer, inden for et sikkert, overvåget miljø.	Kontrolleret adgang til følsomme systemer, segmenterede netværksmiljøer.	Forhindrer ondsindede handlinger i at påvirke kernesystemer eller eksfiltrere data.
Kontekstuel S&S	Analyse af inputkilder og outputmodtagere for mistænkelige dataflow eller uautoriserede transmissioner, identificering af mønstre, der indikerer ondsindet hensigt.	Data Loss Prevention (DLP)-systemer, protokoller til opdagelse af insider-trusler.	Identificerer og blokerer uautoriserede dataeksfiltreringsforsøg.
Adversarial Træning	Kontinuerlig træning af AI-modeller til at genkende og modstå manipulerende sprog, bedrageriske taktikker og forsøg på social engineering.	Sikkerhedsbevidsthedstræning, genkendelse af phishing- og svindelforsøg.	Forbedrer agentens iboende evne til at detektere og flagge ondsindet indhold.

OpenAIs flerlagede forsvar i ChatGPT

OpenAI integrerer denne social engineering-model med traditionelle sikkerhedstekniske teknikker, især "source-sink-analyse", inden for ChatGPT. I dette rammeværk har en angriber brug for to nøglekomponenter: en "source" (kilde) til at injicere indflydelse (f.eks. upålideligt eksternt indhold) og en "sink" (modtager) til at udnytte en farlig kapacitet (f.eks. transmission af information, at følge et ondsindet link eller at interagere med et kompromitteret værktøj). OpenAIs primære mål er at opretholde en grundlæggende sikkerhedsforventning: Farlige handlinger eller transmission af følsom information bør aldrig ske lydløst eller uden passende sikkerhedsforanstaltninger.

Mange angreb mod ChatGPT forsøger at narre assistenten til at udtrække hemmelig samtaleinformation og videresende den til en ondsindet tredjepart. Mens OpenAIs sikkerhedstræning ofte får agenten til at afvise sådanne anmodninger, er en kritisk afbødningsstrategi for tilfælde, hvor agenten er overbevist, Safe Url. Denne mekanisme er specifikt designet til at detektere, når information lært under en samtale muligvis bliver transmitteret til en ekstern tredjeparts-URL. I sådanne sjældne tilfælde viser systemet enten informationen til brugeren for eksplicit bekræftelse eller blokerer transmissionen fuldstændigt, hvilket får agenten til at finde en alternativ, sikker måde at opfylde brugerens anmodning på. Dette forhindrer dataeksfiltrering, selvom agenten øjeblikkeligt er kompromitteret. For yderligere indsigt i sikring mod agentdrevne linkinteraktioner kan brugere henvise til det dedikerede blogindlæg, Hold dine data sikre, når en AI-agent klikker på et link.

Rollen af Safe URL og Sandboxing i Agentisk AI

Safe Url-mekanismen, designet til at detektere og kontrollere transmission af følsomme data, udvider sin beskyttelsesrækkevidde ud over blot linkklik. Lignende sikkerhedsforanstaltninger anvendes til navigationer og bogmærker i Atlas og til søge- og navigationsfunktioner i Deep Research. Disse applikationer involverer i sagens natur AI-agenter, der interagerer med store eksterne datakilder, hvilket gør robuste kontroller for udgående data altafgørende.

Desuden anvender agentiske funktioner som ChatGPT Canvas og ChatGPT Apps en lignende sikkerhedsfilosofi. Når agenter opretter og bruger funktionelle applikationer, er disse operationer begrænset inden for et sikkert sandkassemiljø. Denne sandboxing gør det muligt at opdage uventet kommunikation eller handlinger. Afgørende er, at enhver potentielt følsom eller uautoriseret interaktion udløser en anmodning om eksplicit brugersamtykke, hvilket sikrer, at brugere bevarer den ultimative kontrol over deres data og agentens adfærd. Denne flerlagede tilgang, der kombinerer source-sink-analyse med kontekstuel bevidsthed, brugersamtykke og sandboxed eksekvering, danner et robust forsvar mod udviklende prompt-injektion og social engineering-angreb. For mere detaljer om, hvordan disse agentiske kapaciteter operationaliseres sikkert, henvises til diskussioner om operationalisering af agentisk AI.

Fremtidssikring af autonome agenter mod fjendtlige angreb

At sikre sikker interaktion med den fjendtlige omverden er ikke blot en ønskelig funktion, men et nødvendigt grundlag for udviklingen af fuldt autonome AI-agenter. OpenAIs anbefaling til udviklere, der integrerer AI-modeller i deres applikationer, er at overveje, hvilke kontroller en menneskelig agent ville have i en lignende højstyrkesituation, og at implementere disse analoge begrænsninger inden for AI-systemet.

Mens aspiration er, at maksimalt intelligente AI-modeller i sidste ende vil modstå social engineering mere effektivt end menneskelige agenter, er dette ikke altid et gennemførligt eller omkostningseffektivt umiddelbart mål for enhver applikation. Derfor forbliver det kritisk at designe systemer med indbyggede begrænsninger og overvågning. OpenAI er forpligtet til kontinuerligt at forske i implikationerne af social engineering mod AI-modeller og udvikle avancerede forsvar. Disse fund integreres i både deres applikationssikkerhedsarkitekturer og de igangværende træningsprocesser for deres AI-modeller, hvilket sikrer en proaktiv og adaptiv tilgang til AI-sikkerhed i et stadigt skiftende trusselsbillede. Denne fremadrettede strategi sigter mod at gøre AI-agenter både kraftfulde og i sagens natur troværdige, hvilket afspejler bestræbelser på at forbedre sikkerheden i hele AI-økosystemet, herunder initiativer som forstyrrelse af ondsindet AI-brug.

Original kilde

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Ofte stillede spørgsmål

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Hold dig opdateret

Få de seneste AI-nyheder i din indbakke.

Del