AI 에이전트: 사회 공학을 통한 프롬프트 주입 저항

AI 에이전트는 웹 브라우징부터 복잡한 정보 검색, 사용자를 대신한 행동 실행에 이르기까지 그 능력을 빠르게 확장하고 있습니다. 이러한 발전은 전례 없는 유용성과 효율성을 약속하지만, 동시에 정교한 새로운 공격 표면을 도입합니다. 이 중 가장 중요한 것은 프롬프트 주입으로, 악의적인 명령을 외부 콘텐츠에 삽입하여 AI 모델이 의도하지 않은 행동을 수행하도록 조작하는 방법입니다. OpenAI는 이러한 공격의 중요한 진화를 강조합니다. 즉, 점점 더 사회 공학 전술을 모방하고 있으며, 이는 단순한 입력 필터링에서 견고한 시스템 설계로 방어 전략의 근본적인 변화를 요구합니다.

진화하는 위협: 프롬프트 주입과 사회 공학

초기 프롬프트 주입 공격은 AI 에이전트가 처리할 수 있는 위키백과 기사 내에 직접적인 적대적 명령을 삽입하는 것과 같이 종종 간단했습니다. 이러한 적대적 환경에서의 훈련 경험이 부족했던 초기 모델은 이러한 명시적인 지시를 의심 없이 따르는 경향이 있었습니다. 그러나 AI 모델이 성숙하고 정교해짐에 따라 이러한 노골적인 제안에 대한 취약성은 감소했습니다. 이는 공격자들이 사회 공학적 요소를 통합하는 보다 미묘한 방법을 개발하도록 자극했습니다.

이러한 진화는 단순히 악성 문자열을 식별하는 것을 넘어선다는 점에서 중요합니다. 대신, 인간이 사회 공학에 직면하는 방식과 유사하게, 더 넓은 맥락에서 오해의 소지가 있거나 조작적인 콘텐츠에 저항하도록 AI 시스템에 도전합니다. 예를 들어, OpenAI에 보고된 2025년 프롬프트 주입 공격은 겉보기에는 무해해 보이지만, AI 비서가 민감한 직원 데이터를 추출하여 '규정 준수 유효성 검사 시스템'에 제출하도록 속이도록 설계된 임베디드 지침을 포함하는 이메일을 제작하는 것을 포함했습니다. 이 공격은 테스트에서 50%의 성공률을 보였으며, 합법적으로 들리는 요청과 악의적인 지시를 혼합하는 것의 효과를 보여주었습니다. 이러한 복잡한 공격은 일반적으로 단순한 휴리스틱을 기반으로 입력을 분류하려는 전통적인 "AI 방화벽" 시스템을 우회하는 경우가 많습니다. 왜냐하면 이러한 미묘한 조작을 탐지하는 것이 전체 상황적 맥락 없이 거짓말이나 오정보를 분별하는 것만큼 어렵기 때문입니다.

AI 에이전트를 인간의 대역으로: 사회 공학 방어로부터의 교훈

이러한 고급 프롬프트 주입 기술에 대응하기 위해 OpenAI는 인간 사회 공학의 관점에서 문제를 바라보는 패러다임 전환을 채택했습니다. 이 접근 방식은 모든 악의적인 입력을 완벽하게 식별하는 것이 목표가 아니라, 공격이 부분적으로 성공하더라도 조작의 영향을 엄격하게 제한하도록 AI 에이전트와 시스템을 설계하는 것임을 인식합니다. 이러한 사고방식은 조직 내 인간 직원에 대한 사회 공학적 위험을 관리하는 것과 유사합니다.

환불이나 상품권을 발행할 수 있는 권한을 부여받은 인간 고객 서비스 에이전트를 생각해 보십시오. 에이전트는 고객을 응대하는 것을 목표로 하지만, 지속적으로 외부 입력에 노출됩니다. 이 중 일부는 조작적이거나 심지어 강압적일 수 있습니다. 조직은 규칙, 제한 사항 및 결정론적 시스템을 구현하여 이러한 위험을 완화합니다. 예를 들어, 고객 서비스 에이전트는 발행할 수 있는 환불 금액에 상한선이 있거나 의심스러운 요청을 표시하기 위한 특정 절차가 있을 수 있습니다. 마찬가지로, AI 에이전트도 사용자를 대신하여 작동하지만 본질적인 제한 사항과 안전 장치를 가지고 있어야 합니다. 에이전트가 잠재적으로 적대적인 외부 입력을 탐색해야 하는 이 "세 주체 시스템"(사용자, 에이전트, 외부 세계) 내에서 AI 에이전트를 구상함으로써 설계자는 복원력을 구축할 수 있습니다. 이 접근 방식은 일부 공격이 불가피하게 침투할 수 있음을 인정하지만, 피해 가능성을 최소화하도록 보장합니다. 이 원칙은 OpenAI가 배포하는 강력한 일련의 대응책의 기반이 됩니다.

방어 원칙	설명	인간 시스템과의 유사점	이점
제한	에이전트의 기능과 행동을 미리 정의된 안전한 경계로 제한하여 무단 또는 과도하게 광범위한 작업을 방지합니다.	직원에 대한 지출 한도, 승인 계층, 정책 시행.	에이전트가 부분적으로 손상되더라도 잠재적 피해를 줄입니다.
투명성	잠재적으로 위험하거나 민감한 행동이 실행되기 전에 명시적인 사용자 확인을 요구합니다.	예외에 대한 관리자 승인, 중요한 데이터 입력 재확인.	사용자가 민감한 작업을 재정의하거나 확인할 수 있도록 하여 제어권을 보장합니다.
샌드박싱	특히 외부 도구 또는 애플리케이션과 상호 작용할 때, 에이전트의 작업을 보안이 유지되고 모니터링되는 환경 내에 격리합니다.	민감한 시스템에 대한 제어된 액세스, 분리된 네트워크 환경.	악성 행동이 핵심 시스템에 영향을 미치거나 데이터를 유출하는 것을 방지합니다.
맥락적 소스-싱크	의심스러운 데이터 흐름이나 무단 전송에 대한 입력 소스 및 출력 싱크를 분석하여 악의적인 의도를 나타내는 패턴을 식별합니다.	데이터 손실 방지(DLP) 시스템, 내부자 위협 탐지 프로토콜.	무단 데이터 유출 시도를 식별하고 차단합니다.
적대적 훈련	조작적인 언어, 기만적인 전술, 사회 공학 시도를 인식하고 저항하도록 AI 모델을 지속적으로 훈련합니다.	보안 인식 훈련, 피싱 및 사기 시도 인식.	에이전트의 악성 콘텐츠 탐지 및 표시 고유 능력을 향상시킵니다.

ChatGPT에 적용된 OpenAI의 다층 방어 체계

OpenAI는 이 사회 공학 모델을 ChatGPT 내의 전통적인 보안 공학 기술, 특히 "소스-싱크 분석"과 통합합니다. 이 프레임워크에서 공격자는 두 가지 주요 구성 요소가 필요합니다. 영향력을 주입할 "소스"(예: 신뢰할 수 없는 외부 콘텐츠)와 위험한 기능을 악용할 "싱크"(예: 정보 전송, 악성 링크 따르기, 손상된 도구와 상호 작용). OpenAI의 주요 목표는 기본적인 보안 기대를 유지하는 것입니다. 즉, 위험한 행동이나 민감한 정보의 전송은 결코 조용히 또는 적절한 안전 장치 없이 발생해서는 안 됩니다.

ChatGPT에 대한 많은 공격은 비서를 속여 비밀 대화 정보를 추출하고 악의적인 제3자에게 전달하도록 시도합니다. OpenAI의 안전 훈련은 종종 에이전트가 그러한 요청을 거부하도록 하지만, 에이전트가 설득될 수 있는 경우를 위한 중요한 완화 전략은 Safe Url입니다. 이 메커니즘은 대화 중에 학습된 정보가 외부 제3자 URL로 전송될 수 있는 시점을 감지하도록 특별히 설계되었습니다. 이러한 드문 경우에 시스템은 명시적인 확인을 위해 사용자에게 정보를 표시하거나, 전송을 완전히 차단하고 에이전트에게 사용자의 요청을 이행할 대체적이고 안전한 방법을 찾도록 지시합니다. 이는 에이전트가 일시적으로 손상되더라도 데이터 유출을 방지합니다. 에이전트 기반 링크 상호 작용에 대한 추가적인 안전 장치에 대한 통찰력을 얻으려면, 사용자는 전용 블로그 게시물인 AI 에이전트가 링크를 클릭할 때 데이터 안전 유지하기를 참조할 수 있습니다.

에이전트 AI에서 Safe URL 및 샌드박싱의 역할

민감한 데이터 전송을 감지하고 제어하기 위해 설계된 Safe Url 메커니즘은 단순한 링크 클릭을 넘어 보호 범위를 확장합니다. 유사한 안전 장치가 Atlas 내의 탐색 및 북마크, 그리고 Deep Research의 검색 및 탐색 기능에도 적용됩니다. 이러한 애플리케이션은 본질적으로 AI 에이전트가 방대한 외부 데이터 소스와 상호 작용하는 것을 포함하므로, 외부 데이터에 대한 견고한 제어가 가장 중요합니다.

또한, ChatGPT Canvas 및 ChatGPT 앱과 같은 에이전트 기능은 유사한 보안 철학을 채택합니다. 에이전트가 기능적 애플리케이션을 생성하고 활용할 때, 이러한 작업은 보안 샌드박스 환경 내에 제한됩니다. 이 샌드박싱은 예상치 못한 통신 또는 행동을 감지할 수 있도록 합니다. 결정적으로, 잠재적으로 민감하거나 무단 상호 작용은 명시적인 사용자 동의 요청을 트리거하여, 사용자가 데이터와 에이전트의 행동에 대한 궁극적인 통제권을 유지하도록 보장합니다. 소스-싱크 분석을 상황 인식, 사용자 동의 및 샌드박스 실행과 결합한 이 다층적 접근 방식은 진화하는 프롬프트 주입 및 사회 공학 공격에 대한 강력한 방어를 형성합니다. 이러한 에이전트 기능이 어떻게 안전하게 운영되는지에 대한 자세한 내용은 에이전트 AI 운영화에 대한 논의를 참조하십시오.

적대적 공격에 대한 자율 에이전트의 미래 대비

적대적인 외부 세계와 안전하게 상호 작용하는 것은 단순히 바람직한 기능이 아니라, 완전 자율 AI 에이전트 개발을 위한 필수적인 기반입니다. OpenAI는 AI 모델을 애플리케이션에 통합하는 개발자들에게 유사한 고위험 상황에서 인간 에이전트가 가질 통제 수단을 고려하고, AI 시스템 내에 그러한 유사한 제한 사항을 구현하도록 권고합니다.

최대한 지능적인 AI 모델이 궁극적으로 인간 에이전트보다 사회 공학에 더 효과적으로 저항하기를 바라는 것이 목표이지만, 이는 모든 애플리케이션에 대해 항상 실현 가능하거나 비용 효율적인 즉각적인 목표는 아닙니다. 따라서 내장된 제약과 감독을 갖춘 시스템을 설계하는 것이 여전히 중요합니다. OpenAI는 AI 모델에 대한 사회 공학의 영향을 지속적으로 연구하고 고급 방어 체계를 개발하는 데 전념하고 있습니다. 이러한 연구 결과는 애플리케이션 보안 아키텍처와 AI 모델의 지속적인 훈련 프로세스에 통합되어, 끊임없이 진화하는 위협 환경에서 AI 보안에 대한 사전 예방적이고 적응적인 접근 방식을 보장합니다. 이러한 미래 지향적인 전략은 AI 에이전트를 강력하고 본질적으로 신뢰할 수 있게 만들며, 악의적인 AI 사용 방해와 같은 이니셔티브를 포함하여 AI 생태계 전반의 보안을 강화하려는 노력을 반영합니다.

원본 출처

https://openai.com/index/designing-agents-to-resist-prompt-injection/

자주 묻는 질문

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.