Agentes de IA: Resistencia a la Inyección de Prompts mediante Ingeniería Social

Los agentes de IA están expandiendo rápidamente sus capacidades, desde navegar por la web hasta recuperar información compleja y ejecutar acciones en nombre de los usuarios. Si bien estos avances prometen una utilidad y eficiencia sin precedentes, simultáneamente introducen nuevas y sofisticadas superficies de ataque. La principal de ellas es la inyección de prompts, un método en el que se incrustan instrucciones maliciosas dentro de contenido externo, con el objetivo de manipular un modelo de IA para que realice acciones no deseadas. OpenAI destaca una evolución crítica en estos ataques: cada vez imitan más las tácticas de ingeniería social, lo que requiere un cambio fundamental en las estrategias de defensa, pasando de un simple filtrado de entradas a un diseño sistémico robusto.

Inicialmente, los ataques de inyección de prompts solían ser directos, como incrustar comandos adversarios directos dentro de un artículo de Wikipedia que un agente de IA podría procesar. Los modelos iniciales, al carecer de experiencia de entrenamiento en entornos tan adversarios, eran propensos a seguir estas instrucciones explícitas sin cuestionar. Sin embargo, a medida que los modelos de IA han madurado y se han vuelto más sofisticados, su vulnerabilidad a tales sugerencias manifiestas ha disminuido. Esto ha impulsado a los atacantes a desarrollar métodos más matizados que incorporan elementos de ingeniería social.

Esta evolución es significativa porque va más allá de la mera identificación de una cadena maliciosa. En cambio, desafía a los sistemas de IA a resistir contenido engañoso o manipulador dentro de un contexto más amplio, de manera similar a como un humano se enfrentaría a la ingeniería social. Por ejemplo, un ataque de inyección de prompts de 2025 reportado a OpenAI implicó la creación de un correo electrónico que parecía inofensivo pero contenía instrucciones incrustadas diseñadas para engañar a un asistente de IA para que extrajera datos sensibles de empleados y los enviara a un 'sistema de validación de cumplimiento'. Este ataque demostró una tasa de éxito del 50% en las pruebas, lo que demuestra la eficacia de mezclar solicitudes de sonido legítimo con directivas maliciosas. Tales ataques complejos a menudo eluden los sistemas tradicionales de 'firewall de IA', que típicamente intentan clasificar las entradas basándose en heurísticas simples, porque detectar estas manipulaciones matizadas se vuelve tan difícil como discernir una mentira o desinformación sin el contexto situacional completo.

Para contrarrestar estas técnicas avanzadas de inyección de prompts, OpenAI ha adoptado un cambio de paradigma, viendo el problema a través de la lente de la ingeniería social humana. Este enfoque reconoce que el objetivo no es la identificación perfecta de cada entrada maliciosa, sino más bien diseñar agentes y sistemas de IA de tal manera que el impacto de la manipulación esté severamente restringido, incluso si un ataque tiene éxito parcialmente. Esta mentalidad es análoga a la gestión de riesgos de ingeniería social para empleados humanos dentro de una organización.

Considere un agente de servicio al cliente humano con la capacidad de emitir reembolsos o tarjetas de regalo. Aunque el agente tiene como objetivo servir al cliente, está continuamente expuesto a entradas externas, algunas de las cuales pueden ser manipuladoras o incluso coercitivas. Las organizaciones mitigan este riesgo implementando reglas, limitaciones y sistemas deterministas. Por ejemplo, un agente de servicio al cliente podría tener un límite en la cantidad de reembolsos que puede emitir, o procedimientos específicos para marcar solicitudes sospechosas. De manera similar, un agente de IA, mientras opera en nombre de un usuario, debe tener limitaciones y salvaguardias inherentes. Al concebir a los agentes de IA dentro de este "sistema de tres actores" (usuario, agente, mundo externo), donde el agente debe navegar por entradas externas potencialmente hostiles, los diseñadores pueden incorporar resiliencia. Este enfoque reconoce que algunos ataques inevitablemente pasarán desapercibidos, pero asegura que su potencial de daño se minimice. Este principio sustenta un conjunto robusto de contramedidas implementadas por OpenAI.

Principio de Defensa	Descripción	Analogía con Sistemas Humanos	Beneficio
Restricción	Limitar las capacidades y acciones del agente a límites predefinidos y seguros, impidiendo operaciones no autorizadas o excesivamente amplias.	Límites de gasto, niveles de autorización, aplicación de políticas para empleados.	Reduce el daño potencial incluso si un agente es parcialmente comprometido.
Transparencia	Requerir la confirmación explícita del usuario para acciones potencialmente peligrosas o sensibles antes de su ejecución.	Aprobación del gerente para excepciones, doble verificación de la entrada de datos críticos.	Empodera a los usuarios para anular o confirmar operaciones sensibles, asegurando el control.
Sandboxing	Aislar las acciones del agente, especialmente al interactuar con herramientas o aplicaciones externas, dentro de un entorno seguro y monitoreado.	Acceso controlado a sistemas sensibles, entornos de red segmentados.	Previene que acciones maliciosas afecten sistemas centrales o exfiltren datos.
Análisis Contextual O&D	Analizar fuentes de entrada y destinos de salida en busca de flujos de datos sospechosos o transmisiones no autorizadas, identificando patrones que indiquen intención maliciosa.	Sistemas de Prevención de Pérdida de Datos (DLP), protocolos de detección de amenazas internas.	Identifica y bloquea intentos de exfiltración de datos no autorizados.
Entrenamiento Adversario	Entrenar continuamente modelos de IA para reconocer y resistir el lenguaje manipulador, las tácticas engañosas y los intentos de ingeniería social.	Capacitación en concienciación sobre seguridad, reconocimiento de intentos de phishing y estafas.	Mejora la capacidad inherente del agente para detectar y señalar contenido malicioso.

Defensas Multicapa de OpenAI en ChatGPT

OpenAI integra este modelo de ingeniería social con técnicas tradicionales de ingeniería de seguridad, particularmente el 'análisis de origen-destino', dentro de ChatGPT. En este marco, un atacante necesita dos componentes clave: una 'fuente' para inyectar influencia (p. ej., contenido externo no confiable) y un 'destino' para explotar una capacidad peligrosa (p. ej., transmitir información, seguir un enlace malicioso o interactuar con una herramienta comprometida). El objetivo principal de OpenAI es mantener una expectativa de seguridad fundamental: las acciones peligrosas o la transmisión de información sensible nunca deben ocurrir de forma silenciosa o sin las salvaguardias adecuadas.

Muchos ataques contra ChatGPT intentan engañar al asistente para que extraiga información conversacional secreta y la retransmita a un tercero malicioso. Aunque el entrenamiento de seguridad de OpenAI a menudo lleva al agente a rechazar tales solicitudes, una estrategia de mitigación crítica para los casos en que el agente es convencido es la URL Segura. Este mecanismo está diseñado específicamente para detectar cuándo la información aprendida durante una conversación podría ser transmitida a una URL externa de un tercero. En tales casos raros, el sistema muestra la información al usuario para su confirmación explícita o bloquea la transmisión por completo, instando al agente a encontrar una forma alternativa y segura de satisfacer la solicitud del usuario. Esto previene la exfiltración de datos incluso si el agente es momentáneamente comprometido. Para obtener más información sobre la protección contra interacciones de enlaces impulsadas por agentes, los usuarios pueden consultar la publicación de blog dedicada, Manteniendo tus datos seguros cuando un agente de IA hace clic en un enlace.

El Papel de la URL Segura y el Sandboxing en la IA Agéntica

El mecanismo de URL Segura, diseñado para detectar y controlar la transmisión de datos sensibles, extiende su alcance protector más allá de los simples clics en enlaces. Salvaguardas similares se aplican a las navegaciones y marcadores dentro de Atlas y a las funciones de búsqueda y navegación en Deep Research. Estas aplicaciones implican inherentemente que los agentes de IA interactúan con vastas fuentes de datos externas, haciendo que los controles robustos para los datos salientes sean primordiales.

Además, las características agénticas como ChatGPT Canvas y ChatGPT Apps adoptan una filosofía de seguridad similar. Cuando los agentes crean y utilizan aplicaciones funcionales, estas operaciones se confinan dentro de un entorno de sandbox seguro. Este sandboxing permite la detección de comunicaciones o acciones inesperadas. De manera crucial, cualquier interacción potencialmente sensible o no autorizada desencadena una solicitud de consentimiento explícito del usuario, asegurando que los usuarios conserven el control final sobre sus datos y el comportamiento del agente. Este enfoque de múltiples capas, que combina el análisis de origen-destino con la conciencia contextual, el consentimiento del usuario y la ejecución en sandbox, forma una defensa robusta contra la evolución de los ataques de inyección de prompts e ingeniería social. Para obtener más detalles sobre cómo se están operacionalizando de forma segura estas capacidades agénticas, consulte las discusiones sobre la operacionalización de la IA agéntica.

Preparando Agentes Autónomos para el Futuro contra Ataques Adversarios

Asegurar una interacción segura con el mundo exterior adversario no es simplemente una característica deseable, sino una base necesaria para el desarrollo de agentes de IA totalmente autónomos. La recomendación de OpenAI para los desarrolladores que integran modelos de IA en sus aplicaciones es considerar qué controles tendría un agente humano en una situación similar de alto riesgo e implementar esas limitaciones análogas dentro del sistema de IA.

Si bien la aspiración es que los modelos de IA máximamente inteligentes eventualmente resistan la ingeniería social de manera más efectiva que los agentes humanos, esto no siempre es un objetivo inmediato factible o rentable para cada aplicación. Por lo tanto, el diseño de sistemas con limitaciones y supervisión integradas sigue siendo crítico. OpenAI se compromete a investigar continuamente las implicaciones de la ingeniería social contra los modelos de IA y a desarrollar defensas avanzadas. Estos hallazgos se integran tanto en sus arquitecturas de seguridad de aplicaciones como en los procesos de entrenamiento continuos para sus modelos de IA, asegurando un enfoque proactivo y adaptativo a la seguridad de la IA en un panorama de amenazas en constante evolución. Esta estrategia de futuro tiene como objetivo hacer que los agentes de IA sean tanto potentes como inherentemente dignos de confianza, haciendo eco de los esfuerzos para mejorar la seguridad en todo el ecosistema de la IA, incluidas iniciativas como la interrupción de usos maliciosos de la IA.

Fuente original

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Preguntas Frecuentes

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Mantente Actualizado

Recibe las últimas noticias de IA en tu correo.