Agents d'IA: Resistir la injecció de prompts amb enginyeria social

title: "Agents d'IA: Resistir la injecció de prompts amb enginyeria social" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "ca" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "Seguretat de la IA" keywords:

agents d'IA
injecció de prompts
seguretat de la IA
enginyeria social
seguretat de LLM
ChatGPT
privadesa de dades
atacs maliciosos
IA agentiva
OpenAI
enginyeria de seguretat
URL segura meta_description: "Aprèn com OpenAI dissenya agents d'IA per resistir atacs avançats d'injecció de prompts aprofitant estratègies de defensa d'enginyeria social, garantint una seguretat sòlida de la IA i la privadesa de les dades." image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "Agents d'IA d'OpenAI resistint la injecció de prompts i els atacs d'enginyeria social" quality_score: 94 content_score: 93 seo_score: 95 companies:
OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
question: "Què és la injecció de prompts en el context dels agents d'IA?" answer: "La injecció de prompts es refereix a un tipus d'atac on instruccions malicioses s'incrusten subtilment dins de contingut extern que un agent d'IA processa. L'objectiu és manipular l'agent perquè realitzi accions o reveli informació que l'usuari no pretenia o autoritzava. Aquests atacs exploten la capacitat de la IA per interpretar i seguir instruccions, fins i tot si aquestes instruccions s'originen d'una font no fiable, segrestant eficaçment el comportament de l'agent amb finalitats malicioses. Les formes primerenques podrien ser ordres directes, però les formes avançades aprofiten l'enginyeria social per ser menys detectables i més persuasives, requerint contramesures sofisticades per mantenir la integritat del sistema i la confiança de l'usuari."
question: "Com ha evolucionat la injecció de prompts, i per què és això significatiu?" answer: "La injecció de prompts ha evolucionat des de simples ordres adverses explícites (per exemple, instruccions directes en una pàgina web) fins a tàctiques sofisticades d'enginyeria social. Els atacs inicials sovint eren detectats per un filtratge bàsic. No obstant això, a mesura que els models d'IA es van fer més intel·ligents, els atacants van començar a elaborar prompts que barregen la intenció maliciosa amb un context aparentment legítim, imitant l'enginyeria social humana. Aquest canvi és significatiu perquè significa que les defenses ja no poden dependre només d'identificar cadenes malicioses. En canvi, han d'abordar el repte més ampli de resistir el contingut enganyós o manipulador en context, requerint un enfocament més holístic i sistèmic de la seguretat en lloc de només un simple filtratge d'entrada."
question: "Com es defensa OpenAI contra els atacs d'injecció de prompts d'enginyeria social?" answer: "OpenAI empra una estratègia de defensa multicapa, establint paral·lelismes amb la gestió de riscos d'enginyeria social humana. Això inclou una perspectiva de 'sistema de tres actors' (usuari, agent, món extern) on els agents reben limitacions per restringir l'impacte potencial. Les tècniques clau inclouen l''anàlisi font-destí' per detectar fluxos de dades perillosos, mecanismes de Safe Url que demanen confirmació a l'usuari o bloquegen transmissions sensibles a tercers, i el sandboxing per a eines agentives com ChatGPT Canvas i Apps. L'objectiu general és assegurar que les accions crítiques o les transmissions de dades no succeeixin en silenci, prioritzant sempre la seguretat i el consentiment de l'usuari per mantenir una seguretat robusta de la IA."
question: "Què és Safe Url, i com protegeix els agents d'IA i els usuaris?" answer: "Safe Url és una estratègia de mitigació crítica desenvolupada per OpenAI dissenyada per protegir els agents d'IA i els usuaris de l'exfiltració de dades no autoritzada. Detecta quan la informació que un agent d'IA ha après durant una conversa o interacció podria ser transmesa a una URL externa, potencialment maliciosa, de tercers. Quan es detecta una transmissió d'aquest tipus, Safe Url intervé mostrant la informació sensible a l'usuari per a una confirmació explícita abans d'enviar-la, o bloquejant completament la transmissió i instruint l'agent a trobar un mètode alternatiu i segur per satisfer la sol·licitud de l'usuari. Aquest mecanisme garanteix que les dades sensibles romanen sota el control de l'usuari, fins i tot si un agent és momentàniament influït per una injecció de prompts d'enginyeria social."
question: "Per què és crucial el consentiment de l'usuari per als agents d'IA, especialment amb noves capacitats?" answer: "El consentiment de l'usuari és primordial per als agents d'IA, especialment a mesura que les seves capacitats s'expandeixen per incloure la navegació, la interacció amb eines externes i la transmissió d'informació. Amb la injecció avançada de prompts i les tàctiques d'enginyeria social, un agent podria ser enganyat per realitzar accions que comprometin la privadesa o la seguretat. Requerir el consentiment explícit de l'usuari per a accions potencialment perilloses –com la transmissió de dades sensibles, la navegació a llocs externs o l'ús d'aplicacions externes– garanteix que els usuaris mantenen el control final. Això evita compromisos silenciosos i capacita els usuaris per confirmar o denegar accions, actuant com una capa final crucial de defensa contra la manipulació i el comportament no autoritzat, alineant-se amb els principis de privadesa de dades i autonomia de l'usuari."
question: "Què és l''anàlisi font-destí' en el context de la seguretat de la IA?" answer: "L'anàlisi 'font-destí' és un enfocament d'enginyeria de seguretat utilitzat per OpenAI per identificar i mitigar els riscos associats al flux de dades dins dels sistemes d'IA. En aquest marc, una 'font' es refereix a qualsevol mecanisme d'entrada mitjançant el qual un atacant pot influir en el sistema, com contingut extern no fiable, pàgines web o correus electrònics processats per un agent d'IA. Un 'destí' es refereix a una capacitat o acció que, si s'explota, podria esdevenir perillosa en el context equivocat, com la transmissió d'informació a un tercer, seguir un enllaç maliciós o executar una eina. En analitzar les rutes potencials de les fonts als destins, els equips de seguretat poden implementar controls per evitar el moviment de dades no autoritzat o accions perilloses, fins i tot si un agent d'IA es veu parcialment compromès per un atac d'injecció de prompts. Aquest mètode és fonamental per garantir la integritat de les dades i la seguretat del sistema."

AI agents estan expandint ràpidament les seves capacitats, des de navegar per la web fins a recuperar informació complexa i executar accions en nom dels usuaris. Mentre aquests avenços prometen una utilitat i eficiència sense precedents, simultàniament introdueixen noves i sofisticades superfícies d'atac. El principal entre aquests és la injecció de prompts —un mètode on instruccions malicioses s'incrusten dins de contingut extern, amb l'objectiu de manipular un model d'IA perquè realitzi accions no intencionades. OpenAI destaca una evolució crítica en aquests atacs: imiten cada vegada més les tàctiques d'enginyeria social, requerint un canvi fonamental en les estratègies de defensa, des d'un simple filtratge d'entrada fins a un disseny sistèmic robust.

Inicialment, els atacs d'injecció de prompts eren sovint directes, com ara incrustar ordres adverses directes dins d'un article de la Viquipèdia que un agent d'IA podria processar. Els primers models, mancats d'experiència en l'entrenament en entorns adversos, eren propensos a seguir aquestes instruccions explícites sense qüestionar. No obstant això, a mesura que els models d'IA han madurat i s'han tornat més sofisticats, la seva vulnerabilitat a aquestes suggeriments oberts ha disminuït. Això ha impulsat els atacants a desenvolupar mètodes més subtils que incorporen elements d'enginyeria social.

Aquesta evolució és significativa perquè va més enllà de la mera identificació d'una cadena maliciosa. En canvi, desafia els sistemes d'IA a resistir el contingut enganyós o manipulador dins d'un context més ampli, de manera molt semblant a com un humà s'enfrontaria a l'enginyeria social. Per exemple, un atac d'injecció de prompts de 2025 reportat a OpenAI va implicar la creació d'un correu electrònic que semblava inofensiu però que contenia instruccions incrustades dissenyades per enganyar un assistent d'IA perquè extregués dades sensibles dels empleats i les enviés a un "sistema de validació de compliment". Aquest atac va demostrar una taxa d'èxit del 50% en les proves, demostrant l'eficàcia de barrejar sol·licituds que sonen legítimes amb directives malicioses. Aquests atacs complexos sovint eludeixen els sistemes tradicionals de "tallafocs d'IA", que normalment intenten classificar les entrades basant-se en heurístiques simples, perquè la detecció d'aquestes manipulacions subtils esdevé tan difícil com discernir una mentida o desinformació sense un context situacional complet.

Per contrarestar aquestes tècniques avançades d'injecció de prompts, OpenAI ha adoptat un canvi de paradigma, veient el problema a través de la lent de l'enginyeria social humana. Aquest enfocament reconeix que l'objectiu no és la identificació perfecta de cada entrada maliciosa, sinó el disseny d'agents i sistemes d'IA de manera que l'impacte de la manipulació estigui severament restringit, fins i tot si un atac té èxit parcialment. Aquesta mentalitat és anàloga a la gestió dels riscos d'enginyeria social per als empleats humans dins d'una organització.

Considereu un agent de servei al client humà encarregat de la capacitat d'emetre reemborsaments o targetes de regal. Tot i que l'agent té com a objectiu servir el client, està contínuament exposat a entrades externes—algunes de les quals poden ser manipuladores o fins i tot coercitives. Les organitzacions mitiguen aquest risc implementant regles, limitacions i sistemes deterministes. Per exemple, un agent de servei al client podria tenir un límit en el nombre de reemborsaments que pot emetre, o procediments específics per marcar sol·licituds sospitoses. De la mateixa manera, un agent d'IA, mentre opera en nom d'un usuari, ha de tenir limitacions i salvaguardes inherents. Concebent els agents d'IA dins d'aquest "sistema de tres actors" (usuari, agent, món extern), on l'agent ha de navegar per entrades externes potencialment hostils, els dissenyadors poden integrar la resiliència. Aquest enfocament reconeix que alguns atacs inevitablement s'escaparan, però garanteix que el seu potencial de dany es minimitzi. Aquest principi sustenta un conjunt robust de contramesures desplegades per OpenAI.

Principi de defensa	Descripció	Analogia amb els sistemes humans	Benefici
Restricció	Limitar les capacitats i accions de l'agent a límits predefinits i segurs, evitant operacions no autoritzades o excessivament àmplies.	Límits de despesa, nivells d'autorització, aplicació de polítiques per als empleats.	Redueix els danys potencials fins i tot si un agent és parcialment compromès.
Transparència	Requerir la confirmació explícita de l'usuari per a accions potencialment perilloses o sensibles abans que s'executin.	Aprovació del gerent per a excepcions, doble comprovació de l'entrada de dades crítica.	Permet als usuaris anul·lar o confirmar operacions sensibles, garantint el control.
Sandboxing	Aïllar les accions de l'agent, especialment quan interactua amb eines o aplicacions externes, dins d'un entorn segur i monitoritzat.	Accés controlat a sistemes sensibles, entorns de xarxa segmentats.	Evita que les accions malicioses afectin els sistemes centrals o exfiltrin dades.
Anàlisi S&D contextual	Analitzar les fonts d'entrada i els destins de sortida per a fluxos de dades sospitosos o transmissions no autoritzades, identificant patrons que indiquen intenció maliciosa.	Sistemes de prevenció de pèrdua de dades (DLP), protocols de detecció d'amenaces internes.	Identifica i bloqueja els intents d'exfiltració de dades no autoritzats.
Entrenament adversari	Entrenar contínuament models d'IA per reconèixer i resistir el llenguatge manipulador, les tàctiques enganyoses i els intents d'enginyeria social.	Formació en conscienciació sobre seguretat, reconeixement de phishing i intents d'estafa.	Millora la capacitat inherent de l'agent per detectar i marcar contingut maliciós.

Defenses multicapa d'OpenAI a ChatGPT

OpenAI integra aquest model d'enginyeria social amb tècniques tradicionals d'enginyeria de seguretat, particularment l'"anàlisi font-destí", dins de ChatGPT. En aquest marc, un atacant necessita dos components clau: una "font" per injectar influència (per exemple, contingut extern no fiable) i un "destí" per explotar una capacitat perillosa (per exemple, transmetre informació, seguir un enllaç maliciós o interactuar amb una eina compromesa). L'objectiu principal d'OpenAI és mantenir una expectativa fonamental de seguretat: les accions perilloses o la transmissió d'informació sensible mai haurien de produir-se en silenci o sense les salvaguardes adequades.

Molts atacs contra ChatGPT intenten enganyar l'assistent perquè extregui informació conversacional secreta i la transmeti a un tercer maliciós. Si bé l'entrenament de seguretat d'OpenAI sovint fa que l'agent rebutgi aquestes sol·licituds, una estratègia de mitigació crítica per als casos en què l'agent està convençut és Safe Url. Aquest mecanisme està dissenyat específicament per detectar quan la informació apresa durant una conversa podria ser transmesa a una URL externa de tercers. En aquests casos rars, el sistema mostra la informació a l'usuari per a una confirmació explícita o bloqueja completament la transmissió, instruint l'agent a trobar una manera alternativa i segura de satisfer la sol·licitud de l'usuari. Això evita l'exfiltració de dades fins i tot si l'agent es veu momentàniament compromès. Per obtenir més informació sobre com protegir-se de les interaccions d'enllaços impulsades per agents, els usuaris poden consultar l'entrada de blog dedicada, Mantenir les teves dades segures quan un agent d'IA fa clic en un enllaç.

El paper de Safe URL i el Sandboxing en la IA Agentiva

El mecanisme Safe Url, dissenyat per detectar i controlar la transmissió de dades sensibles, estén el seu abast protector més enllà dels simples clics d'enllaç. Es s'apliquen salvaguardes similars a les navegacions i marcadors dins d'Atlas i a les funcions de cerca i navegació en Deep Research. Aquestes aplicacions impliquen inherentment que els agents d'IA interactuen amb vastes fonts de dades externes, fent que els controls robustos per a les dades de sortida siguin primordials.

A més, les funcions agentives com ChatGPT Canvas i ChatGPT Apps adopten una filosofia de seguretat similar. Quan els agents creen i utilitzen aplicacions funcionals, aquestes operacions es confinen dins d'un entorn de sandbox segur. Aquest sandboxing permet la detecció de comunicacions o accions inesperades. Crucialment, qualsevol interacció potencialment sensible o no autoritzada desencadena una sol·licitud de consentiment explícit de l'usuari, garantint que els usuaris conserven el control final sobre les seves dades i el comportament de l'agent. Aquest enfocament multicapa, que combina l'anàlisi font-destí amb la consciència contextual, el consentiment de l'usuari i l'execució en sandbox, forma una defensa robusta contra l'evolució de la injecció de prompts i els atacs d'enginyeria social. Per obtenir més detalls sobre com s'estan operacionalitzant aquestes capacitats agentives de forma segura, consulteu les discussions sobre com operacionalitzar la IA agentiva.

Preparar els agents autònoms per al futur contra els atacs adversaris

Garantir una interacció segura amb el món exterior adversari no és simplement una característica desitjable, sinó una base necessària per al desenvolupament d'agents d'IA totalment autònoms. La recomanació d'OpenAI per als desenvolupadors que integren models d'IA a les seves aplicacions és considerar quins controls tindria un agent humà en una situació similar d'alt risc i implementar aquestes limitacions anàlogues dins del sistema d'IA.

Tot i que l'aspiració és que els models d'IA màximament intel·ligents acabin resistint l'enginyeria social de manera més efectiva que els agents humans, això no sempre és un objectiu factible o rendible immediatament per a cada aplicació. Per tant, dissenyar sistemes amb restriccions i supervisió integrades continua sent fonamental. OpenAI es compromet a investigar contínuament les implicacions de l'enginyeria social contra els models d'IA i a desenvolupar defenses avançades. Aquestes troballes s'integren tant en les seves arquitectures de seguretat d'aplicacions com en els processos d'entrenament continu dels seus models d'IA, garantint un enfocament proactiu i adaptatiu a la seguretat de la IA en un panorama d'amenaces en constant evolució. Aquesta estratègia de futur pretén fer que els agents d'IA siguin tant potents com inherentment fiables, fent-se ressò dels esforços per millorar la seguretat en tot l'ecosistema d'IA, incloses iniciatives com interrompre els usos maliciosos de la IA.

Font original

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Preguntes freqüents

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Manteniu-vos al dia

Rebeu les últimes notícies d'IA al correu.