Agentes de IA: Resistindo à Injeção de Prompt com Engenharia Social

Os agentes de IA estão a expandir rapidamente as suas capacidades, desde navegar na web a recuperar informações complexas e executar ações em nome dos utilizadores. Embora esses avanços prometam utilidade e eficiência sem precedentes, eles introduzem simultaneamente novas e sofisticadas superfícies de ataque. A principal delas é a injeção de prompt — um método onde instruções maliciosas são incorporadas em conteúdo externo, com o objetivo de manipular um modelo de IA para realizar ações não intencionais. A OpenAI destaca uma evolução crítica nestes ataques: eles imitam cada vez mais táticas de engenharia social, exigindo uma mudança fundamental nas estratégias de defesa, de uma simples filtragem de entrada para um design sistémico robusto.

Inicialmente, os ataques de injeção de prompt eram frequentemente diretos, como a incorporação de comandos adversariais diretos num artigo da Wikipédia que um agente de IA poderia processar. Os modelos iniciais, carecendo de experiência de treino em tais ambientes adversariais, eram propensos a seguir essas instruções explícitas sem questionar. No entanto, à medida que os modelos de IA amadureceram e se tornaram mais sofisticados, a sua vulnerabilidade a tais sugestões abertas diminuiu. Isso impulsionou os atacantes a desenvolver métodos mais subtis que incorporam elementos de engenharia social.

Esta evolução é significativa porque vai além da mera identificação de uma string maliciosa. Em vez disso, desafia os sistemas de IA a resistir a conteúdo enganoso ou manipulador dentro de um contexto mais amplo, muito como um humano enfrentaria a engenharia social. Por exemplo, um ataque de injeção de prompt de 2025 reportado à OpenAI envolveu a criação de um e-mail que parecia inócuo, mas continha instruções incorporadas destinadas a enganar um assistente de IA para extrair dados sensíveis de funcionários e submetê-los a um "sistema de validação de conformidade". Este ataque demonstrou uma taxa de sucesso de 50% em testes, mostrando a eficácia de misturar pedidos de som legítimo com diretivas maliciosas. Tais ataques complexos frequentemente contornam os sistemas tradicionais de "firewalling de IA", que tipicamente tentam classificar as entradas com base em heurísticas simples, porque detetar estas manipulações subtis torna-se tão difícil quanto discernir uma mentira ou desinformação sem o contexto situacional completo.

Para contrariar estas técnicas avançadas de injeção de prompt, a OpenAI adotou uma mudança de paradigma, vendo o problema através da lente da engenharia social humana. Esta abordagem reconhece que o objetivo não é a identificação perfeita de cada entrada maliciosa, mas sim projetar agentes e sistemas de IA de forma que o impacto da manipulação seja severamente restringido, mesmo que um ataque tenha sucesso parcial. Esta mentalidade é análoga à gestão de riscos de engenharia social para funcionários humanos dentro de uma organização.

Considere um agente de atendimento ao cliente humano encarregado da capacidade de emitir reembolsos ou cartões-presente. Embora o agente vise servir o cliente, ele está continuamente exposto a entradas externas — algumas das quais podem ser manipuladoras ou mesmo coercivas. As organizações mitigam esse risco implementando regras, limitações e sistemas determinísticos. Por exemplo, um agente de atendimento ao cliente pode ter um limite no número de reembolsos que pode emitir, ou procedimentos específicos para sinalizar pedidos suspeitos. Da mesma forma, um agente de IA, ao operar em nome de um utilizador, deve ter limitações e salvaguardas inerentes. Ao conceber agentes de IA dentro deste 'sistema de três atores' (utilizador, agente, mundo externo), onde o agente deve navegar por entradas externas potencialmente hostis, os projetistas podem construir resiliência. Esta abordagem reconhece que alguns ataques irão inevitavelmente passar, mas garante que o seu potencial de dano é minimizado. Este princípio sustenta um conjunto robusto de contramedidas implantadas pela OpenAI.

Princípio de Defesa	Descrição	Analogia a Sistemas Humanos	Benefício
Restrição	Limitando as capacidades e ações do agente a limites predefinidos e seguros, prevenindo operações não autorizadas ou excessivamente amplas.	Limites de gastos, níveis de autorização, aplicação de políticas para funcionários.	Reduz o dano potencial mesmo que um agente seja parcialmente comprometido.
Transparência	Exigir a confirmação explícita do utilizador para ações potencialmente perigosas ou sensíveis antes de serem executadas.	Aprovação do gestor para exceções, verificação dupla de entrada de dados críticos.	Capacita os utilizadores a anular ou confirmar operações sensíveis, garantindo controlo.
Sandboxing	Isolar as ações do agente, especialmente ao interagir com ferramentas ou aplicações externas, num ambiente seguro e monitorizado.	Acesso controlado a sistemas sensíveis, ambientes de rede segmentados.	Impede que ações maliciosas afetem sistemas centrais ou exfiltrem dados.
Fonte e Destino Contextual	Analisar fontes de entrada e destinos de saída para fluxos de dados suspeitos ou transmissões não autorizadas, identificando padrões que indicam intenção maliciosa.	Sistemas de Prevenção de Perda de Dados (DLP), protocolos de deteção de ameaças internas.	Identifica e bloqueia tentativas de exfiltração de dados não autorizadas.
Treino Adversarial	Treinar continuamente modelos de IA para reconhecer e resistir a linguagem manipuladora, táticas enganosas e tentativas de engenharia social.	Formação de sensibilização para a segurança, reconhecimento de tentativas de phishing e fraude.	Melhora a capacidade inerente do agente de detetar e sinalizar conteúdo malicioso.

Defesas Multicamadas da OpenAI no ChatGPT

A OpenAI integra este modelo de engenharia social com técnicas tradicionais de engenharia de segurança, particularmente a 'análise de fonte-destino' (source-sink analysis), dentro do ChatGPT. Neste quadro, um atacante necessita de dois componentes chave: uma 'fonte' para injetar influência (por exemplo, conteúdo externo não confiável) e um 'destino' para explorar uma capacidade perigosa (por exemplo, transmitir informações, seguir um link malicioso ou interagir com uma ferramenta comprometida). O objetivo primordial da OpenAI é manter uma expectativa de segurança fundamental: ações perigosas ou a transmissão de informações sensíveis nunca devem ocorrer silenciosamente ou sem as salvaguardas apropriadas.

Muitos ataques contra o ChatGPT tentam enganar o assistente para extrair informações conversacionais secretas e retransmiti-las a terceiros maliciosos. Embora o treino de segurança da OpenAI frequentemente leve o agente a recusar tais pedidos, uma estratégia crítica de mitigação para casos em que o agente é convencido é o Safe Url. Este mecanismo é especificamente projetado para detetar quando informações aprendidas durante uma conversa podem ser transmitidas para uma URL externa de terceiros. Em tais casos raros, o sistema exibe as informações ao utilizador para confirmação explícita ou bloqueia a transmissão completamente, solicitando ao agente que encontre uma forma alternativa e segura de satisfazer o pedido do utilizador. Isso impede a exfiltração de dados mesmo que o agente seja momentaneamente comprometido. Para mais informações sobre como salvaguardar interações de links conduzidas por agentes, os utilizadores podem consultar a publicação dedicada no blog, Mantendo seus dados seguros quando um agente de IA clica em um link.

O Papel do Safe Url e do Sandboxing na IA Agêntica

O mecanismo Safe Url, projetado para detetar e controlar a transmissão de dados sensíveis, estende o seu alcance protetor além de meros cliques em links. Salvaguardas semelhantes são aplicadas a navegações e favoritos dentro do Atlas e a funções de pesquisa e navegação no Deep Research. Essas aplicações envolvem inerentemente agentes de IA a interagir com vastas fontes de dados externas, tornando os controlos robustos para dados de saída primordiais.

Além disso, funcionalidades agênticas como o ChatGPT Canvas e o ChatGPT Apps adotam uma filosofia de segurança semelhante. Quando os agentes criam e utilizam aplicações funcionais, estas operações são confinadas dentro de um ambiente seguro de sandbox. Este sandboxing permite a deteção de comunicações ou ações inesperadas. Crucialmente, quaisquer interações potencialmente sensíveis ou não autorizadas desencadeiam um pedido de consentimento explícito do utilizador, garantindo que os utilizadores mantêm o controlo final sobre os seus dados e o comportamento do agente. Esta abordagem multicamadas, combinando análise de fonte-destino com consciência contextual, consentimento do utilizador e execução em sandbox, forma uma defesa robusta contra a evolução dos ataques de injeção de prompt e engenharia social. Para mais detalhes sobre como estas capacidades agênticas estão a ser operacionalizadas de forma segura, consulte as discussões sobre operacionalizando a IA agêntica.

Preparando Agentes Autónomos para o Futuro Contra Ataques Adversários

Garantir a interação segura com o mundo externo adversarial não é meramente uma característica desejável, mas uma base necessária para o desenvolvimento de agentes de IA totalmente autónomos. A recomendação da OpenAI para os desenvolvedores que integram modelos de IA nas suas aplicações é considerar que controlos um agente humano teria numa situação semelhante de alto risco e implementar essas limitações análogas dentro do sistema de IA.

Embora a aspiração seja que modelos de IA maximamente inteligentes acabem por resistir à engenharia social de forma mais eficaz do que os agentes humanos, isso nem sempre é um objetivo imediato viável ou rentável para todas as aplicações. Portanto, projetar sistemas com restrições e supervisão incorporadas permanece crítico. A OpenAI está empenhada em pesquisar continuamente as implicações da engenharia social contra modelos de IA e em desenvolver defesas avançadas. Estas descobertas são integradas tanto nas suas arquiteturas de segurança de aplicação quanto nos processos de treino contínuos para os seus modelos de IA, garantindo uma abordagem proativa e adaptativa à segurança de IA num cenário de ameaças em constante evolução. Esta estratégia de visão de futuro visa tornar os agentes de IA poderosos e inerentemente confiáveis, ecoando esforços para melhorar a segurança em todo o ecossistema de IA, incluindo iniciativas como interrompendo usos maliciosos de IA.

Fonte original

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Perguntas Frequentes

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Fique Atualizado

Receba as últimas novidades de IA no seu e-mail.