title: "Agents d'IA: Resistir la injecció de prompts amb enginyeria social" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "ca" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "Seguretat de la IA" keywords:
- agents d'IA
- injecció de prompts
- seguretat de la IA
- enginyeria social
- seguretat de LLM
- ChatGPT
- privadesa de dades
- atacs maliciosos
- IA agentiva
- OpenAI
- enginyeria de seguretat
- URL segura meta_description: "Aprèn com OpenAI dissenya agents d'IA per resistir atacs avançats d'injecció de prompts aprofitant estratègies de defensa d'enginyeria social, garantint una seguretat sòlida de la IA i la privadesa de les dades." image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "Agents d'IA d'OpenAI resistint la injecció de prompts i els atacs d'enginyeria social" quality_score: 94 content_score: 93 seo_score: 95 companies:
- OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
- question: "Què és la injecció de prompts en el context dels agents d'IA?" answer: "La injecció de prompts es refereix a un tipus d'atac on instruccions malicioses s'incrusten subtilment dins de contingut extern que un agent d'IA processa. L'objectiu és manipular l'agent perquè realitzi accions o reveli informació que l'usuari no pretenia o autoritzava. Aquests atacs exploten la capacitat de la IA per interpretar i seguir instruccions, fins i tot si aquestes instruccions s'originen d'una font no fiable, segrestant eficaçment el comportament de l'agent amb finalitats malicioses. Les formes primerenques podrien ser ordres directes, però les formes avançades aprofiten l'enginyeria social per ser menys detectables i més persuasives, requerint contramesures sofisticades per mantenir la integritat del sistema i la confiança de l'usuari."
- question: "Com ha evolucionat la injecció de prompts, i per què és això significatiu?" answer: "La injecció de prompts ha evolucionat des de simples ordres adverses explícites (per exemple, instruccions directes en una pàgina web) fins a tàctiques sofisticades d'enginyeria social. Els atacs inicials sovint eren detectats per un filtratge bàsic. No obstant això, a mesura que els models d'IA es van fer més intel·ligents, els atacants van començar a elaborar prompts que barregen la intenció maliciosa amb un context aparentment legítim, imitant l'enginyeria social humana. Aquest canvi és significatiu perquè significa que les defenses ja no poden dependre només d'identificar cadenes malicioses. En canvi, han d'abordar el repte més ampli de resistir el contingut enganyós o manipulador en context, requerint un enfocament més holístic i sistèmic de la seguretat en lloc de només un simple filtratge d'entrada."
- question: "Com es defensa OpenAI contra els atacs d'injecció de prompts d'enginyeria social?" answer: "OpenAI empra una estratègia de defensa multicapa, establint paral·lelismes amb la gestió de riscos d'enginyeria social humana. Això inclou una perspectiva de 'sistema de tres actors' (usuari, agent, món extern) on els agents reben limitacions per restringir l'impacte potencial. Les tècniques clau inclouen l''anàlisi font-destí' per detectar fluxos de dades perillosos, mecanismes de Safe Url que demanen confirmació a l'usuari o bloquegen transmissions sensibles a tercers, i el sandboxing per a eines agentives com ChatGPT Canvas i Apps. L'objectiu general és assegurar que les accions crítiques o les transmissions de dades no succeeixin en silenci, prioritzant sempre la seguretat i el consentiment de l'usuari per mantenir una seguretat robusta de la IA."
- question: "Què és Safe Url, i com protegeix els agents d'IA i els usuaris?" answer: "Safe Url és una estratègia de mitigació crítica desenvolupada per OpenAI dissenyada per protegir els agents d'IA i els usuaris de l'exfiltració de dades no autoritzada. Detecta quan la informació que un agent d'IA ha après durant una conversa o interacció podria ser transmesa a una URL externa, potencialment maliciosa, de tercers. Quan es detecta una transmissió d'aquest tipus, Safe Url intervé mostrant la informació sensible a l'usuari per a una confirmació explícita abans d'enviar-la, o bloquejant completament la transmissió i instruint l'agent a trobar un mètode alternatiu i segur per satisfer la sol·licitud de l'usuari. Aquest mecanisme garanteix que les dades sensibles romanen sota el control de l'usuari, fins i tot si un agent és momentàniament influït per una injecció de prompts d'enginyeria social."
- question: "Per què és crucial el consentiment de l'usuari per als agents d'IA, especialment amb noves capacitats?" answer: "El consentiment de l'usuari és primordial per als agents d'IA, especialment a mesura que les seves capacitats s'expandeixen per incloure la navegació, la interacció amb eines externes i la transmissió d'informació. Amb la injecció avançada de prompts i les tàctiques d'enginyeria social, un agent podria ser enganyat per realitzar accions que comprometin la privadesa o la seguretat. Requerir el consentiment explícit de l'usuari per a accions potencialment perilloses –com la transmissió de dades sensibles, la navegació a llocs externs o l'ús d'aplicacions externes– garanteix que els usuaris mantenen el control final. Això evita compromisos silenciosos i capacita els usuaris per confirmar o denegar accions, actuant com una capa final crucial de defensa contra la manipulació i el comportament no autoritzat, alineant-se amb els principis de privadesa de dades i autonomia de l'usuari."
- question: "Què és l''anàlisi font-destí' en el context de la seguretat de la IA?" answer: "L'anàlisi 'font-destí' és un enfocament d'enginyeria de seguretat utilitzat per OpenAI per identificar i mitigar els riscos associats al flux de dades dins dels sistemes d'IA. En aquest marc, una 'font' es refereix a qualsevol mecanisme d'entrada mitjançant el qual un atacant pot influir en el sistema, com contingut extern no fiable, pàgines web o correus electrònics processats per un agent d'IA. Un 'destí' es refereix a una capacitat o acció que, si s'explota, podria esdevenir perillosa en el context equivocat, com la transmissió d'informació a un tercer, seguir un enllaç maliciós o executar una eina. En analitzar les rutes potencials de les fonts als destins, els equips de seguretat poden implementar controls per evitar el moviment de dades no autoritzat o accions perilloses, fins i tot si un agent d'IA es veu parcialment compromès per un atac d'injecció de prompts. Aquest mètode és fonamental per garantir la integritat de les dades i la seguretat del sistema."
AI agents estan expandint ràpidament les seves capacitats, des de navegar per la web fins a recuperar informació complexa i executar accions en nom dels usuaris. Mentre aquests avenços prometen una utilitat i eficiència sense precedents, simultàniament introdueixen noves i sofisticades superfícies d'atac. El principal entre aquests és la injecció de prompts —un mètode on instruccions malicioses s'incrusten dins de contingut extern, amb l'objectiu de manipular un model d'IA perquè realitzi accions no intencionades. OpenAI destaca una evolució crítica en aquests atacs: imiten cada vegada més les tàctiques d'enginyeria social, requerint un canvi fonamental en les estratègies de defensa, des d'un simple filtratge d'entrada fins a un disseny sistèmic robust.
Amenaça en evolució: injecció de prompts i enginyeria social
Inicialment, els atacs d'injecció de prompts eren sovint directes, com ara incrustar ordres adverses directes dins d'un article de la Viquipèdia que un agent d'IA podria processar. Els primers models, mancats d'experiència en l'entrenament en entorns adversos, eren propensos a seguir aquestes instruccions explícites sense qüestionar. No obstant això, a mesura que els models d'IA han madurat i s'han tornat més sofisticats, la seva vulnerabilitat a aquestes suggeriments oberts ha disminuït. Això ha impulsat els atacants a desenvolupar mètodes més subtils que incorporen elements d'enginyeria social.
Aquesta evolució és significativa perquè va més enllà de la mera identificació d'una cadena maliciosa. En canvi, desafia els sistemes d'IA a resistir el contingut enganyós o manipulador dins d'un context més ampli, de manera molt semblant a com un humà s'enfrontaria a l'enginyeria social. Per exemple, un atac d'injecció de prompts de 2025 reportat a OpenAI va implicar la creació d'un correu electrònic que semblava inofensiu però que contenia instruccions incrustades dissenyades per enganyar un assistent d'IA perquè extregués dades sensibles dels empleats i les enviés a un "sistema de validació de compliment". Aquest atac va demostrar una taxa d'èxit del 50% en les proves, demostrant l'eficàcia de barrejar sol·licituds que sonen legítimes amb directives malicioses. Aquests atacs complexos sovint eludeixen els sistemes tradicionals de "tallafocs d'IA", que normalment intenten classificar les entrades basant-se en heurístiques simples, perquè la detecció d'aquestes manipulacions subtils esdevé tan difícil com discernir una mentida o desinformació sense un context situacional complet.
Agents d'IA com a contraparts humanes: lliçons de les defenses d'enginyeria social
Per contrarestar aquestes tècniques avançades d'injecció de prompts, OpenAI ha adoptat un canvi de paradigma, veient el problema a través de la lent de l'enginyeria social humana. Aquest enfocament reconeix que l'objectiu no és la identificació perfecta de cada entrada maliciosa, sinó el disseny d'agents i sistemes d'IA de manera que l'impacte de la manipulació estigui severament restringit, fins i tot si un atac té èxit parcialment. Aquesta mentalitat és anàloga a la gestió dels riscos d'enginyeria social per als empleats humans dins d'una organització.
Considereu un agent de servei al client humà encarregat de la capacitat d'emetre reemborsaments o targetes de regal. Tot i que l'agent té com a objectiu servir el client, està contínuament exposat a entrades externes—algunes de les quals poden ser manipuladores o fins i tot coercitives. Les organitzacions mitiguen aquest risc implementant regles, limitacions i sistemes deterministes. Per exemple, un agent de servei al client podria tenir un límit en el nombre de reemborsaments que pot emetre, o procediments específics per marcar sol·licituds sospitoses. De la mateixa manera, un agent d'IA, mentre opera en nom d'un usuari, ha de tenir limitacions i salvaguardes inherents. Concebent els agents d'IA dins d'aquest "sistema de tres actors" (usuari, agent, món extern), on l'agent ha de navegar per entrades externes potencialment hostils, els dissenyadors poden integrar la resiliència. Aquest enfocament reconeix que alguns atacs inevitablement s'escaparan, però garanteix que el seu potencial de dany es minimitzi. Aquest principi sustenta un conjunt robust de contramesures desplegades per OpenAI.
| Principi de defensa | Descripció | Analogia amb els sistemes humans | Benefici |
|---|---|---|---|
| Restricció | Limitar les capacitats i accions de l'agent a límits predefinits i segurs, evitant operacions no autoritzades o excessivament àmplies. | Límits de despesa, nivells d'autorització, aplicació de polítiques per als empleats. | Redueix els danys potencials fins i tot si un agent és parcialment compromès. |
| Transparència | Requerir la confirmació explícita de l'usuari per a accions potencialment perilloses o sensibles abans que s'executin. | Aprovació del gerent per a excepcions, doble comprovació de l'entrada de dades crítica. | Permet als usuaris anul·lar o confirmar operacions sensibles, garantint el control. |
| Sandboxing | Aïllar les accions de l'agent, especialment quan interactua amb eines o aplicacions externes, dins d'un entorn segur i monitoritzat. | Accés controlat a sistemes sensibles, entorns de xarxa segmentats. | Evita que les accions malicioses afectin els sistemes centrals o exfiltrin dades. |
| Anàlisi S&D contextual | Analitzar les fonts d'entrada i els destins de sortida per a fluxos de dades sospitosos o transmissions no autoritzades, identificant patrons que indiquen intenció maliciosa. | Sistemes de prevenció de pèrdua de dades (DLP), protocols de detecció d'amenaces internes. | Identifica i bloqueja els intents d'exfiltració de dades no autoritzats. |
| Entrenament adversari | Entrenar contínuament models d'IA per reconèixer i resistir el llenguatge manipulador, les tàctiques enganyoses i els intents d'enginyeria social. | Formació en conscienciació sobre seguretat, reconeixement de phishing i intents d'estafa. | Millora la capacitat inherent de l'agent per detectar i marcar contingut maliciós. |
Defenses multicapa d'OpenAI a ChatGPT
OpenAI integra aquest model d'enginyeria social amb tècniques tradicionals d'enginyeria de seguretat, particularment l'"anàlisi font-destí", dins de ChatGPT. En aquest marc, un atacant necessita dos components clau: una "font" per injectar influència (per exemple, contingut extern no fiable) i un "destí" per explotar una capacitat perillosa (per exemple, transmetre informació, seguir un enllaç maliciós o interactuar amb una eina compromesa). L'objectiu principal d'OpenAI és mantenir una expectativa fonamental de seguretat: les accions perilloses o la transmissió d'informació sensible mai haurien de produir-se en silenci o sense les salvaguardes adequades.
Molts atacs contra ChatGPT intenten enganyar l'assistent perquè extregui informació conversacional secreta i la transmeti a un tercer maliciós. Si bé l'entrenament de seguretat d'OpenAI sovint fa que l'agent rebutgi aquestes sol·licituds, una estratègia de mitigació crítica per als casos en què l'agent està convençut és Safe Url. Aquest mecanisme està dissenyat específicament per detectar quan la informació apresa durant una conversa podria ser transmesa a una URL externa de tercers. En aquests casos rars, el sistema mostra la informació a l'usuari per a una confirmació explícita o bloqueja completament la transmissió, instruint l'agent a trobar una manera alternativa i segura de satisfer la sol·licitud de l'usuari. Això evita l'exfiltració de dades fins i tot si l'agent es veu momentàniament compromès. Per obtenir més informació sobre com protegir-se de les interaccions d'enllaços impulsades per agents, els usuaris poden consultar l'entrada de blog dedicada, Mantenir les teves dades segures quan un agent d'IA fa clic en un enllaç.
El paper de Safe URL i el Sandboxing en la IA Agentiva
El mecanisme Safe Url, dissenyat per detectar i controlar la transmissió de dades sensibles, estén el seu abast protector més enllà dels simples clics d'enllaç. Es s'apliquen salvaguardes similars a les navegacions i marcadors dins d'Atlas i a les funcions de cerca i navegació en Deep Research. Aquestes aplicacions impliquen inherentment que els agents d'IA interactuen amb vastes fonts de dades externes, fent que els controls robustos per a les dades de sortida siguin primordials.
A més, les funcions agentives com ChatGPT Canvas i ChatGPT Apps adopten una filosofia de seguretat similar. Quan els agents creen i utilitzen aplicacions funcionals, aquestes operacions es confinen dins d'un entorn de sandbox segur. Aquest sandboxing permet la detecció de comunicacions o accions inesperades. Crucialment, qualsevol interacció potencialment sensible o no autoritzada desencadena una sol·licitud de consentiment explícit de l'usuari, garantint que els usuaris conserven el control final sobre les seves dades i el comportament de l'agent. Aquest enfocament multicapa, que combina l'anàlisi font-destí amb la consciència contextual, el consentiment de l'usuari i l'execució en sandbox, forma una defensa robusta contra l'evolució de la injecció de prompts i els atacs d'enginyeria social. Per obtenir més detalls sobre com s'estan operacionalitzant aquestes capacitats agentives de forma segura, consulteu les discussions sobre com operacionalitzar la IA agentiva.
Preparar els agents autònoms per al futur contra els atacs adversaris
Garantir una interacció segura amb el món exterior adversari no és simplement una característica desitjable, sinó una base necessària per al desenvolupament d'agents d'IA totalment autònoms. La recomanació d'OpenAI per als desenvolupadors que integren models d'IA a les seves aplicacions és considerar quins controls tindria un agent humà en una situació similar d'alt risc i implementar aquestes limitacions anàlogues dins del sistema d'IA.
Tot i que l'aspiració és que els models d'IA màximament intel·ligents acabin resistint l'enginyeria social de manera més efectiva que els agents humans, això no sempre és un objectiu factible o rendible immediatament per a cada aplicació. Per tant, dissenyar sistemes amb restriccions i supervisió integrades continua sent fonamental. OpenAI es compromet a investigar contínuament les implicacions de l'enginyeria social contra els models d'IA i a desenvolupar defenses avançades. Aquestes troballes s'integren tant en les seves arquitectures de seguretat d'aplicacions com en els processos d'entrenament continu dels seus models d'IA, garantint un enfocament proactiu i adaptatiu a la seguretat de la IA en un panorama d'amenaces en constant evolució. Aquesta estratègia de futur pretén fer que els agents d'IA siguin tant potents com inherentment fiables, fent-se ressò dels esforços per millorar la seguretat en tot l'ecosistema d'IA, incloses iniciatives com interrompre els usos maliciosos de la IA.
Preguntes freqüents
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
Manteniu-vos al dia
Rebeu les últimes notícies d'IA al correu.
