AIエージェント：ソーシャルエンジニアリングでプロンプトインジェクションに抵抗する

title: "AIエージェント：ソーシャルエンジニアリングでプロンプトインジェクションに抵抗する" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "ja" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "AIセキュリティ" keywords:

AIエージェント
プロンプトインジェクション
AIセキュリティ
ソーシャルエンジニアリング
LLMセキュリティ
ChatGPT
データプライバシー
悪意ある攻撃
エージェント型AI
OpenAI
セキュリティエンジニアリング meta_description: "OpenAIがソーシャルエンジニアリング防御戦略を活用して、いかにAIエージェントを高度なプロンプトインジェクション攻撃に抵抗させるか、堅牢なAIセキュリティとデータプライバシーを確保する方法を学びましょう。" image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "OpenAIのAIエージェントがプロンプトインジェクションとソーシャルエンジニアリング攻撃に抵抗している様子" quality_score: 94 content_score: 93 seo_score: 95 companies:
OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
question: "AIエージェントの文脈におけるプロンプトインジェクションとは何ですか？" answer: "プロンプトインジェクションとは、AIエージェントが処理する外部コンテンツに悪意のある指示が巧妙に埋め込まれる攻撃の一種です。その目的は、ユーザーが意図しない、または許可しない行動を実行させたり、情報を開示させたりするためにエージェントを操作することです。これらの攻撃は、信頼できないソースからの指示であっても、AIが指示を解釈し、それに従う能力を悪用し、エージェントの行動を敵対的な目的で乗っ取ります。初期の形態は直接的なコマンドであるかもしれませんが、高度な形態はソーシャルエンジニアリングを利用して検出されにくく、より説得力があり、システムの整合性とユーザーの信頼を維持するためには洗練された対策が必要です。"
question: "プロンプトインジェクションはどのように進化し、なぜそれが重要なのでしょうか？" answer: "プロンプトインジェクションは、単純で明示的な敵対的コマンド（例：ウェブページ内の直接的な指示）から、洗練されたソーシャルエンジニアリング戦術へと進化しました。初期の攻撃は、基本的なフィルタリングによって捕捉されることがよくありました。しかし、AIモデルが賢くなるにつれて、攻撃者は悪意のある意図と一見正当な文脈を融合させたプロンプトを作成し始め、人間のソーシャルエンジニアリングを模倣するようになりました。この変化が重要なのは、防御がもはや悪意のある文字列の特定だけに頼ることはできないことを意味するからです。代わりに、文脈の中で誤解を招く、あるいは操作的なコンテンツに抵抗するというより広範な課題に取り組む必要があり、単純な入力フィルタリングではなく、セキュリティに対するより全体的な、体系的なアプローチが求められます。"
question: "OpenAIはソーシャルエンジニアリングによるプロンプトインジェクション攻撃にどのように対抗していますか？" answer: "OpenAIは、人間のソーシャルエンジニアリングリスク管理から類推を導き出し、多層防御戦略を採用しています。これには、「三者システム」の視点（ユーザー、エージェント、外部世界）が含まれ、エージェントには潜在的な影響を制限するための制約が与えられます。主要な技術としては、危険なデータフローを検出する「ソース-シンク分析」、ユーザー確認を促したり、機密情報の第三者への送信をブロックしたりするSafe Urlメカニズム、そしてChatGPT CanvasやAppsのようなエージェント型ツール向けのサンドボックス化があります。最終的な目標は、重要な行動やデータ送信がサイレントに行われることがないようにすることであり、堅牢なAIセキュリティを維持するために常にユーザーの安全性と同意を優先しています。"
question: "Safe Urlとは何ですか？また、AIエージェントとユーザーをどのように保護しますか？" answer: "Safe Urlは、AIエージェントとユーザーを不正なデータ流出から保護するためにOpenAIが開発した重要な緩和戦略です。これは、AIエージェントが会話または対話中に学習した情報が、外部の、潜在的に悪意のある第三者のURLに送信される可能性があることを検出します。このような送信が検出されると、Safe Urlは介入し、送信前に機密情報をユーザーに明示的に確認させるか、送信を完全にブロックし、ユーザーのリクエストを履行するための代替の安全な方法を見つけるようにエージェントに指示します。このメカニズムは、エージェントがソーシャルエンジニアリングによるプロンプトインジェクションによって一時的に操られたとしても、機密データがユーザーの管理下に留まることを保証します。"
question: "特に新しい機能を持つAIエージェントにとって、ユーザーの同意がなぜ重要なのでしょうか？" answer: "AIエージェントにとって、ユーザーの同意は極めて重要です。特に、ブラウジング、外部ツールとの対話、情報の送信を含むようにその機能が拡張されるにつれて、その重要性は増します。高度なプロンプトインジェクションやソーシャルエンジニアリング戦術により、エージェントはプライバシーやセキュリティを侵害する行動を行うように騙される可能性があります。機密データの送信、外部サイトへのナビゲーション、外部アプリケーションの使用など、潜在的に危険な行動に対して明示的なユーザーの同意を求めることは、ユーザーが最終的な制御を維持することを保証します。これにより、サイレントな侵害を防ぎ、ユーザーが行動を確認または拒否できるようになり、データプライバシーとユーザーの自律性の原則に沿って、操作や不正な行動に対する決定的な最終防衛層として機能します。"
question: "AIセキュリティの文脈における「ソース-シンク」分析とは何ですか？" answer: "ソース-シンク分析は、AIシステム内のデータフローに関連するリスクを特定し、軽減するためにOpenAIが使用するセキュリティエンジニアリングアプローチです。このフレームワークでは、「ソース」とは、AIエージェントが処理する信頼できない外部コンテンツ、ウェブページ、電子メールなど、攻撃者がシステムに影響を与えることができるあらゆる入力メカニズムを指します。「シンク」とは、悪用された場合、誤った文脈で危険になりうる機能や行動を指します。例えば、情報を第三者に送信したり、悪意のあるリンクを辿ったり、ツールを実行したりすることです。ソースからシンクへの潜在的なパスを分析することで、セキュリティチームは、AIエージェントがプロンプトインジェクション攻撃によって部分的に侵害されたとしても、不正なデータ移動や危険な行動を防ぐための制御を実装できます。この方法は、データの整合性とシステムセキュリティを確保するために不可欠です。"

AIエージェントは、ウェブブラウジングから複雑な情報の取得、ユーザーに代わってアクションを実行するまで、その機能を急速に拡大しています。これらの進歩は前例のない有用性と効率性を約束する一方で、同時に洗練された新たな攻撃対象を導入します。その中でも主要なものがプロンプトインジェクションです。これは、AIモデルを意図しない行動へと操作することを目指し、悪意のある指示が外部コンテンツ内に埋め込まれる手法です。OpenAIは、これらの攻撃における重要な進化を強調しています。それは、ソーシャルエンジニアリングの戦術をますます模倣するようになり、単純な入力フィルタリングから堅牢なシステム設計へと防御戦略の根本的な転換を必要としていることです。

進化する脅威：プロンプトインジェクションとソーシャルエンジニアリング

当初、プロンプトインジェクション攻撃は、AIエージェントが処理する可能性のあるWikipediaの記事内に直接的な敵対的コマンドを埋め込むなど、しばしば単純なものでした。このような敵対的な環境でのトレーニング時経験が不足していた初期のモデルは、これらの明示的な指示に疑問を抱かずに従う傾向がありました。しかし、AIモデルが成熟し、より洗練されるにつれて、そのような露骨な提案に対する脆弱性は減少しました。これにより、攻撃者はソーシャルエンジニアリングの要素を組み込んだ、より繊細な手法を開発するようになりました。

この進化は、単に悪意のある文字列を特定するだけでなく、より広範な文脈の中で誤解を招く、または操作的なコンテンツにAIシステムが抵抗するように挑戦するという点で重要です。これは、人間がソーシャルエンジニアリングに直面する状況に非常によく似ています。例えば、2025年にOpenAIに報告されたプロンプトインジェクション攻撃では、無害に見えるメールが作成されましたが、機密性の高い従業員データを抽出し、「コンプライアンス検証システム」に送信するようにAIアシスタントを騙すための埋め込み指示が含まれていました。この攻撃は、テストで50%の成功率を示し、合法的に聞こえる要求と悪意のある指示を組み合わせる効果を浮き彫りにしました。このような複雑な攻撃は、通常、単純なヒューリスティックに基づいて入力を分類しようとする従来の「AIファイアウォール」システムをバイパスすることがよくあります。なぜなら、これらの微妙な操作を検出することは、完全な状況的文脈なしに嘘や誤報を識別するのと同じくらい困難になるためです。

人間を模したAIエージェント：ソーシャルエンジニアリング防御からの教訓

これらの高度なプロンプトインジェクション技術に対抗するため、OpenAIはパラダイムシフトを採用し、人間のソーシャルエンジニアリングの視点から問題を見ています。このアプローチは、すべての悪意のある入力を完全に特定することが目標ではなく、たとえ攻撃が部分的に成功したとしても、操作の影響が厳しく制限されるようにAIエージェントとシステムを設計することであると認識しています。この考え方は、組織内の従業員に対するソーシャルエンジニアリングのリスク管理と類似しています。

返金やギフトカードの発行権限を持つ人間の顧客サービス担当者を考えてみましょう。担当者は顧客にサービスを提供することを目指しますが、常に外部からの入力にさらされます。その中には、操作的であったり、強制的なものであったりするものもあります。組織は、ルール、制限、および決定論的なシステムを導入することで、このリスクを軽減します。例えば、顧客サービス担当者は、発行できる返金の数に上限があったり、疑わしい要求をフラグ立てするための特定のプロシージャがあったりするかもしれません。同様に、AIエージェントも、ユーザーに代わって動作する際、固有の制限と安全装置を備えている必要があります。この「三者システム」（ユーザー、エージェント、外部世界）の中でAIエージェントを構想し、エージェントが潜在的に敵対的な外部入力をナビゲートする必要があることを認識することで、設計者は回復力を組み込むことができます。このアプローチは、一部の攻撃が必然的にすり抜けることを認めつつも、それらによる潜在的な被害を最小限に抑えることを保証します。この原則は、OpenAIが展開する堅牢な対策スイートの基盤となっています。

防御原則	説明	人間システムへの類推	利点
制約	エージェントの能力と行動を事前に定義された安全な境界内に制限し、不正な操作や過度に広範な操作を防ぐ。	支出制限、承認階層、従業員へのポリシー施行。	エージェントが部分的に侵害された場合でも、潜在的な損害を軽減する。
透明性	潜在的に危険または機密性の高い行動が実行される前に、明示的なユーザー確認を要求する。	例外に対する管理者の承認、重要なデータ入力の二重確認。	ユーザーが機密性の高い操作を上書きまたは確認できるようにし、制御を確保する。
サンドボックス化	エージェントの行動、特に外部ツールやアプリケーションとの対話時に、安全で監視された環境内で分離する。	機密システムへのアクセス制御、セグメント化されたネットワーク環境。	悪意のある行動がコアシステムに影響を与えたり、データを流出させたりするのを防ぐ。
文脈的ソース-シンク	不審なデータフローや不正な送信について入力ソースと出力シンクを分析し、悪意のある意図を示すパターンを特定する。	データ損失防止 (DLP) システム、内部脅威検出プロトコル。	不正なデータ流出の試みを特定し、ブロックする。
敵対的トレーニング	操作的な言葉、欺瞞的な戦術、ソーシャルエンジニアリングの試みを認識し、抵抗するようにAIモデルを継続的にトレーニングする。	セキュリティ意識向上トレーニング、フィッシング詐欺の認識。	悪意のあるコンテンツを検出してフラグを立てるエージェント固有の能力を向上させる。

ChatGPTにおけるOpenAIの多層防御

OpenAIは、このソーシャルエンジニアリングモデルを、ChatGPT内で従来のセキュリティエンジニアリング技術、特に「ソース-シンク分析」と統合しています。このフレームワークでは、攻撃者は2つの主要なコンポーネントを必要とします。「ソース」（例：信頼できない外部コンテンツ）を通じて影響を注入し、「シンク」（例：情報の送信、悪意のあるリンクのたどり、侵害されたツールとの対話）を悪用して危険な機能を利用します。OpenAIの主な目的は、根本的なセキュリティ期待を維持することです。すなわち、危険な行動や機密情報の送信は、サイレントに、または適切な安全装置なしに決して起こってはならないということです。

ChatGPTに対する多くの攻撃は、アシスタントを騙して会話の秘密情報を抽出し、悪意のある第三者に中継させようとします。OpenAIの安全トレーニングは、そのような要求をエージェントが拒否するように導くことが多いですが、エージェントが説得されてしまった場合の重要な緩和戦略がSafe Urlです。このメカニズムは、会話中に学習した情報が外部の第三者URLに送信される可能性があることを検出するために特別に設計されています。このようなまれなケースでは、システムは、送信前に情報をユーザーに明示的に確認させるか、送信を完全にブロックし、ユーザーのリクエストを満たすための代替の安全な方法を見つけるようエージェントに促します。これにより、エージェントが一時的に侵害されたとしても、データの流出を防ぐことができます。エージェントがクリックするリンクからの保護に関するさらなる洞察については、AIエージェントがリンクをクリックする際のデータ保護に関する専門のブログ記事を参照してください。

エージェント型AIにおけるSafe URLとサンドボックス化の役割

Safe Urlメカニズムは、機密データ送信の検出と制御のために設計されており、単なるリンククリックを超えて保護範囲を拡大しています。同様の安全対策は、Atlas内のナビゲーションとブックマーク、およびDeep Researchの検索とナビゲーション機能にも適用されます。これらのアプリケーションは本質的にAIエージェントが膨大な外部データソースと対話することを伴うため、発信データに対する堅牢な制御が極めて重要です。

さらに、ChatGPT CanvasやChatGPT Appsのようなエージェント機能も同様のセキュリティ哲学を採用しています。エージェントが機能的なアプリケーションを作成し利用する際、これらの操作は安全なサンドボックス環境内に限定されます。このサンドボックス化により、予期しない通信やアクションの検出が可能になります。決定的に重要なのは、潜在的に機密性の高い、または不正なやり取りが発生した場合、明示的なユーザーの同意を求める要求がトリガーされ、ユーザーが自分のデータとエージェントの行動に対する究極の制御を維持することを確実にすることです。この多層アプローチは、ソース-シンク分析を文脈認識、ユーザーの同意、およびサンドボックス化された実行と組み合わせることで、進化するプロンプトインジェクションおよびソーシャルエンジニアリング攻撃に対する堅牢な防御を形成します。これらのエージェント能力がどのように安全に運用されているかの詳細については、エージェント型AIの運用化に関する議論を参照してください。

敵対的攻撃に対する自律エージェントの将来対策

敵対的な外部世界との安全な相互作用を確保することは、単に望ましい機能であるだけでなく、完全に自律的なAIエージェントの開発にとって不可欠な基盤です。OpenAIがAIモデルをアプリケーションに統合する開発者に対して推奨しているのは、同様の危機的状況で人間のエージェントがどのような制御を行うか検討し、その類推的な制限をAIシステム内に実装することです。

最大限にインテリジェントなAIモデルが、最終的には人間のエージェントよりも効果的にソーシャルエンジニアリングに抵抗するという目標はありますが、これはすべてのアプリケーションにとって常に実現可能または費用対効果の高い即座の目標ではありません。したがって、組み込みの制約と監視を備えたシステムを設計することが依然として重要です。OpenAIは、AIモデルに対するソーシャルエンジニアリングの影響を継続的に研究し、高度な防御を開発することに尽力しています。これらの知見は、彼らのアプリケーションセキュリティアーキテクチャとAIモデルの継続的なトレーニングプロセスに統合され、進化し続ける脅威の状況においてAIセキュリティに対するプロアクティブで適応的なアプローチを確保します。この先見的な戦略は、悪意あるAI利用の阻止のようなイニシアチブを含むAIエコシステム全体のセキュリティ強化の取り組みと共鳴し、AIエージェントを強力かつ本質的に信頼できるものにすることを目指しています。

元の情報源

https://openai.com/index/designing-agents-to-resist-prompt-injection/

よくある質問

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.