KI-Agenten: Prompt Injection mit Social Engineering widerstehen

title: "KI-Agenten: Prompt Injection mit Social Engineering widerstehen" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "de" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "KI-Sicherheit" keywords:

KI-Agenten
Prompt Injection
KI-Sicherheit
Social Engineering
LLM-Sicherheit
ChatGPT
Datenschutz
bösartige Angriffe
agentische KI
OpenAI
Sicherheits-Engineering
sichere URL meta_description: "Erfahren Sie, wie OpenAI KI-Agenten entwickelt, um fortschrittlichen Prompt-Injection-Angriffen durch den Einsatz von Social-Engineering-Verteidigungsstrategien zu widerstehen und so eine robuste KI-Sicherheit und den Datenschutz zu gewährleisten." image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "OpenAI KI-Agenten widerstehen Prompt-Injection- und Social-Engineering-Angriffen" quality_score: 94 content_score: 93 seo_score: 95 companies:
OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
question: "Was ist Prompt Injection im Kontext von KI-Agenten?" answer: "Prompt Injection bezieht sich auf eine Art von Angriff, bei dem bösartige Anweisungen subtil in externen Inhalten eingebettet werden, die ein KI-Agent verarbeitet. Das Ziel ist es, den Agenten so zu manipulieren, dass er Aktionen ausführt oder Informationen preisgibt, die der Benutzer nicht beabsichtigt oder autorisiert hat. Diese Angriffe nutzen die Fähigkeit der KI aus, Anweisungen zu interpretieren und zu befolgen, selbst wenn diese Anweisungen von einer nicht vertrauenswürdigen Quelle stammen, wodurch das Verhalten des Agenten effektiv für feindliche Zwecke gekapert wird. Frühe Formen könnten direkte Befehle sein, aber fortgeschrittene Formen nutzen Social Engineering, um weniger erkennbar und überzeugender zu sein, was ausgeklügelte Gegenmaßnahmen erfordert, um die Systemintegrität und das Benutzervertrauen aufrechtzuerhalten."
question: "Wie hat sich Prompt Injection entwickelt und warum ist dies bedeutsam?" answer: "Prompt Injection hat sich von einfachen, expliziten Angreiferbefehlen (z. B. direkte Anweisungen auf einer Webseite) zu ausgeklügelten Social-Engineering-Taktiken entwickelt. Frühe Angriffe wurden oft durch grundlegende Filterung abgefangen. Doch mit der Zunahme der Intelligenz von KI-Modellen begannen Angreifer, Prompts zu erstellen, die bösartige Absichten mit scheinbar legitimen Kontexten vermischen und menschliches Social Engineering nachahmen. Diese Verschiebung ist bedeutsam, da sie bedeutet, dass Verteidigungen sich nicht länger ausschließlich auf die Identifizierung bösartiger Zeichenketten verlassen können. Stattdessen müssen sie die umfassendere Herausforderung angehen, irreführenden oder manipulativen Inhalten im Kontext zu widerstehen, was einen ganzheitlicheren, systemischen Ansatz für die Sicherheit erfordert, anstatt nur eine einfache Eingabefilterung."
question: "Wie verteidigt sich OpenAI gegen Social-Engineering-Prompt-Injection-Angriffe?" answer: "OpenAI setzt eine mehrschichtige Verteidigungsstrategie ein, die Parallelen zum menschlichen Social-Engineering-Risikomanagement zieht. Dazu gehört eine 'Drei-Aktor-System'-Perspektive (Benutzer, Agent, externe Welt), bei der Agenten Beschränkungen erhalten, um potenzielle Auswirkungen zu begrenzen. Zu den Schlüsseltechniken gehören die 'Source-Sink-Analyse' zur Erkennung gefährlicher Datenflüsse, Safe-Url-Mechanismen, die eine Benutzerbestätigung anfordern oder sensible Übertragungen an Dritte blockieren, sowie Sandboxing für agentische Tools wie ChatGPT Canvas und Apps. Das übergeordnete Ziel ist es, sicherzustellen, dass kritische Aktionen oder Datenübertragungen nicht stillschweigend erfolgen, wobei die Benutzersicherheit und -zustimmung stets Priorität haben, um eine robuste KI-Sicherheit aufrechtzuerhalten."
question: "Was ist Safe Url und wie schützt es KI-Agenten und Benutzer?" answer: "Safe Url ist eine kritische Minderungsstrategie, die von OpenAI entwickelt wurde, um KI-Agenten und Benutzer vor unautorisierter Datenexfiltration zu schützen. Sie erkennt, wenn Informationen, die ein KI-Agent während einer Konversation oder Interaktion gelernt hat, an eine externe, potenziell bösartige Drittanbieter-URL übertragen werden könnten. Wenn eine solche Übertragung erkannt wird, greift Safe Url ein, indem es entweder die sensiblen Informationen dem Benutzer zur expliziten Bestätigung anzeigt, bevor sie gesendet werden, oder indem es die Übertragung vollständig blockiert und den Agenten anweist, eine alternative, sichere Methode zur Erfüllung der Benutzeranfrage zu finden. Dieser Mechanismus stellt sicher, dass sensible Daten unter der Kontrolle des Benutzers bleiben, selbst wenn ein Agent durch eine Social-Engineering-Prompt-Injection vorübergehend beeinflusst wird."
question: "Warum ist die Benutzerzustimmung für KI-Agenten entscheidend, insbesondere bei neuen Funktionen?" answer: "Die Benutzerzustimmung ist für KI-Agenten von größter Bedeutung, insbesondere da sich ihre Fähigkeiten erweitern und das Browsen, die Interaktion mit externen Tools und die Übertragung von Informationen umfassen. Mit fortschrittlichen Prompt-Injection- und Social-Engineering-Taktiken könnte ein Agent dazu verleitet werden, Aktionen auszuführen, die die Privatsphäre oder Sicherheit gefährden. Die Anforderung einer expliziten Benutzerzustimmung für potenziell gefährliche Aktionen – wie die Übertragung sensibler Daten, das Navigieren zu externen Websites oder die Nutzung externer Anwendungen – stellt sicher, dass Benutzer die letztendliche Kontrolle behalten. Dies verhindert stille Kompromittierungen und befähigt Benutzer, Aktionen zu bestätigen oder abzulehnen, was als entscheidende letzte Verteidigungsschicht gegen Manipulation und unautorisiertes Verhalten dient und den Prinzipien des Datenschutzes und der Benutzerautonomie entspricht."
question: "Was ist die 'Source-Sink'-Analyse im Kontext der KI-Sicherheit?" answer: "Die Source-Sink-Analyse ist ein Sicherheits-Engineering-Ansatz, der von OpenAI verwendet wird, um Risiken im Zusammenhang mit dem Datenfluss innerhalb von KI-Systemen zu identifizieren und zu mindern. In diesem Rahmen bezieht sich eine 'Source' (Quelle) auf jeden Eingabemechanismus, über den ein Angreifer das System beeinflussen kann, wie z. B. nicht vertrauenswürdige externe Inhalte, Webseiten oder E-Mails, die von einem KI-Agenten verarbeitet werden. Eine 'Sink' (Senke) bezieht sich auf eine Fähigkeit oder Aktion, die, wenn sie ausgenutzt wird, im falschen Kontext gefährlich werden könnte, wie z. B. die Übertragung von Informationen an Dritte, das Folgen eines bösartigen Links oder die Ausführung eines Tools. Durch die Analyse potenzieller Pfade von Quellen zu Senken können Sicherheitsteams Kontrollen implementieren, um unautorisierte Datenbewegungen oder gefährliche Aktionen zu verhindern, selbst wenn ein KI-Agent teilweise durch einen Prompt-Injection-Angriff kompromittiert wird. Diese Methode ist grundlegend für die Gewährleistung der Datenintegrität und Systemsicherheit."

KI-Agenten erweitern ihre Fähigkeiten rasant, vom Browsen im Web über das Abrufen komplexer Informationen bis hin zur Ausführung von Aktionen im Auftrag von Benutzern. Während diese Fortschritte einen beispiellosen Nutzen und Effizienz versprechen, führen sie gleichzeitig ausgeklügelte neue Angriffsflächen ein. Hauptsächlich ist dies die Prompt Injection – eine Methode, bei der bösartige Anweisungen in externen Inhalten eingebettet werden, um ein KI-Modell dazu zu manipulieren, unbeabsichtigte Aktionen auszuführen. OpenAI hebt eine kritische Entwicklung dieser Angriffe hervor: Sie ahmen zunehmend Social-Engineering-Taktiken nach, was eine grundlegende Verschiebung der Verteidigungsstrategien von einfacher Eingabefilterung hin zu einem robusten systemischen Design erfordert.

Anfänglich waren Prompt-Injection-Angriffe oft unkompliziert, wie das Einbetten direkter adverser Befehle in einen Wikipedia-Artikel, den ein KI-Agent verarbeiten könnte. Frühe Modelle, denen die Trainingserfahrung in solchen adversen Umgebungen fehlte, neigten dazu, diesen expliziten Anweisungen fraglos zu folgen. Doch mit der Reifung und Verfeinerung der KI-Modelle hat ihre Anfälligkeit für solche offenkundigen Vorschläge abgenommen. Dies hat Angreifer dazu angespornt, nuanciertere Methoden zu entwickeln, die Elemente des Social Engineering beinhalten.

Diese Entwicklung ist bedeutsam, da sie über die bloße Identifizierung einer bösartigen Zeichenkette hinausgeht. Stattdessen fordert sie KI-Systeme heraus, irreführenden oder manipulativen Inhalten in einem breiteren Kontext zu widerstehen, ähnlich wie ein Mensch Social Engineering ausgesetzt wäre. Beispielsweise umfasste ein OpenAI im Jahr 2025 gemeldeter Prompt-Injection-Angriff die Erstellung einer E-Mail, die harmlos wirkte, aber eingebettete Anweisungen enthielt, die darauf abzielten, einen KI-Assistenten dazu zu bringen, sensible Mitarbeiterdaten zu extrahieren und an ein "Compliance-Validierungssystem" zu übermitteln. Dieser Angriff zeigte eine Erfolgsquote von 50 % in Tests, was die Effektivität der Mischung aus legitim klingenden Anfragen und bösartigen Anweisungen demonstriert. Solche komplexen Angriffe umgehen oft traditionelle "KI-Firewalling"-Systeme, die typischerweise versuchen, Eingaben auf der Grundlage einfacher Heuristiken zu klassifizieren, da das Erkennen dieser nuancierten Manipulationen so schwierig wird wie das Erkennen einer Lüge oder Fehlinformation ohne vollständigen situativen Kontext.

Um diesen fortschrittlichen Prompt-Injection-Techniken entgegenzuwirken, hat OpenAI einen Paradigmenwechsel vollzogen und betrachtet das Problem durch die Brille des menschlichen Social Engineering. Dieser Ansatz erkennt an, dass das Ziel nicht die perfekte Identifizierung jeder bösartigen Eingabe ist, sondern vielmehr die Gestaltung von KI-Agenten und -Systemen, sodass die Auswirkungen der Manipulation stark eingeschränkt sind, selbst wenn ein Angriff teilweise erfolgreich ist. Diese Denkweise ist vergleichbar mit dem Management von Social-Engineering-Risiken für menschliche Mitarbeiter innerhalb einer Organisation.

Stellen Sie sich einen menschlichen Kundendienstmitarbeiter vor, der die Befugnis hat, Rückerstattungen oder Geschenkkarten auszustellen. Obwohl der Agent darauf abzielt, dem Kunden zu dienen, ist er kontinuierlich externen Eingaben ausgesetzt – von denen einige manipulativ oder sogar zwanghaft sein können. Organisationen mindern dieses Risiko, indem sie Regeln, Beschränkungen und deterministische Systeme implementieren. Zum Beispiel könnte ein Kundendienstmitarbeiter eine Obergrenze für die Anzahl der Rückerstattungen haben, die er ausstellen kann, oder spezifische Verfahren, um verdächtige Anfragen zu kennzeichnen. Ähnlich muss ein KI-Agent, der im Auftrag eines Benutzers agiert, inhärente Beschränkungen und Schutzmaßnahmen besitzen. Indem KI-Agenten innerhalb dieses "Drei-Aktor-Systems" (Benutzer, Agent, externe Welt) konzipiert werden, in dem der Agent potenziell feindliche externe Eingaben navigieren muss, können Designer Resilienz einbauen. Dieser Ansatz erkennt an, dass einige Angriffe unweigerlich durchschlüpfen werden, aber stellt sicher, dass ihr Schadenspotenzial minimiert wird. Dieses Prinzip untermauert eine robuste Suite von Gegenmaßnahmen, die von OpenAI eingesetzt werden.

Verteidigungsprinzip	Beschreibung	Analogie zu menschlichen Systemen	Nutzen
Einschränkung	Begrenzung der Agentenfähigkeiten und -aktionen auf vordefinierte, sichere Grenzen, um unautorisierte oder zu weitgehende Operationen zu verhindern.	Ausgabenlimits, Autorisierungsstufen, Richtliniendurchsetzung für Mitarbeiter.	Reduziert potenziellen Schaden, selbst wenn ein Agent teilweise kompromittiert ist.
Transparenz	Erfordert eine explizite Benutzerbestätigung für potenziell gefährliche oder sensible Aktionen, bevor diese ausgeführt werden.	Managergenehmigung für Ausnahmen, doppelte Überprüfung kritischer Dateneingaben.	Ermöglicht Benutzern, sensible Operationen zu überschreiben oder zu bestätigen, um die Kontrolle zu gewährleisten.
Sandboxing	Isolation von Agentenaktionen, insbesondere bei der Interaktion mit externen Tools oder Anwendungen, innerhalb einer sicheren, überwachten Umgebung.	Kontrollierter Zugriff auf sensible Systeme, segmentierte Netzwerkumgebungen.	Verhindert, dass bösartige Aktionen Kernsysteme beeinflussen oder Daten exfiltrieren.
Kontextuelle Q&S-Analyse	Analyse von Eingabequellen ('Sources') und Ausgabesenken ('Sinks') auf verdächtige Datenflüsse oder unautorisierte Übertragungen, um Muster zu identifizieren, die auf bösartige Absichten hindeuten.	Systeme zur Verhinderung von Datenverlust (DLP), Protokolle zur Erkennung von Insider-Bedrohungen.	Identifiziert und blockiert unautorisierte Datenexfiltrationsversuche.
Adversariales Training	Kontinuierliches Training von KI-Modellen, um manipulative Sprache, täuschende Taktiken und Social-Engineering-Versuche zu erkennen und ihnen zu widerstehen.	Sicherheitsschulungen, Erkennen von Phishing- und Betrugsversuchen.	Verbessert die inhärente Fähigkeit des Agenten, bösartige Inhalte zu erkennen und zu kennzeichnen.

OpenAIs mehrschichtige Verteidigungsmechanismen in ChatGPT

OpenAI integriert dieses Social-Engineering-Modell mit traditionellen Sicherheits-Engineering-Techniken, insbesondere der "Source-Sink-Analyse", in ChatGPT. In diesem Rahmen benötigt ein Angreifer zwei Schlüsselkomponenten: eine "Source" (Quelle), um Einfluss einzuschleusen (z. B. nicht vertrauenswürdige externe Inhalte), und eine "Sink" (Senke), um eine gefährliche Fähigkeit auszunutzen (z. B. Informationen zu übertragen, einem bösartigen Link zu folgen oder mit einem kompromittierten Tool zu interagieren). OpenAIs primäres Ziel ist es, eine grundlegende Sicherheitserwartung aufrechtzuerhalten: Gefährliche Aktionen oder die Übertragung sensibler Informationen sollten niemals stillschweigend oder ohne entsprechende Schutzmaßnahmen erfolgen.

Viele Angriffe auf ChatGPT versuchen, den Assistenten dazu zu bringen, geheime Gesprächsinformationen zu extrahieren und an einen bösartigen Dritten weiterzuleiten. Während OpenAIs Sicherheitstraining den Agenten oft dazu veranlasst, solche Anfragen abzulehnen, ist Safe Url eine kritische Minderungsstrategie für Fälle, in denen der Agent überzeugt wird. Dieser Mechanismus ist speziell dafür konzipiert, zu erkennen, wenn während einer Konversation gelernte Informationen an eine externe Drittanbieter-URL übertragen werden könnten. In solch seltenen Fällen zeigt das System entweder die Informationen dem Benutzer zur expliziten Bestätigung an oder blockiert die Übertragung vollständig und fordert den Agenten auf, einen alternativen, sicheren Weg zu finden, um die Benutzeranfrage zu erfüllen. Dies verhindert Datenexfiltration, selbst wenn der Agent vorübergehend kompromittiert ist. Für weitere Einblicke in den Schutz vor Agenten-gesteuerten Link-Interaktionen können Benutzer den speziellen Blogbeitrag Keeping your data safe when an AI agent clicks a link konsultieren.

Die Rolle von Safe URL und Sandboxing in der agentischen KI

Der Safe Url-Mechanismus, der zur Erkennung und Kontrolle sensibler Datenübertragungen entwickelt wurde, erweitert seine schützende Reichweite über bloße Link-Klicks hinaus. Ähnliche Schutzmaßnahmen werden auf Navigationen und Lesezeichen in Atlas sowie auf Such- und Navigationsfunktionen in Deep Research angewendet. Diese Anwendungen involvieren von Natur aus KI-Agenten, die mit riesigen externen Datenquellen interagieren, wodurch robuste Kontrollen für ausgehende Daten von größter Bedeutung sind.

Darüber hinaus übernehmen agentische Funktionen wie ChatGPT Canvas und ChatGPT Apps eine ähnliche Sicherheitsphilosophie. Wenn Agenten funktionale Anwendungen erstellen und nutzen, werden diese Operationen in einer sicheren Sandbox-Umgebung ausgeführt. Dieses Sandboxing ermöglicht die Erkennung unerwarteter Kommunikationen oder Aktionen. Entscheidend ist, dass potenziell sensible oder unautorisierte Interaktionen eine Anforderung zur expliziten Benutzerzustimmung auslösen, wodurch sichergestellt wird, dass Benutzer die letztendliche Kontrolle über ihre Daten und das Verhalten des Agenten behalten. Dieser mehrschichtige Ansatz, der die Source-Sink-Analyse mit Kontextbewusstsein, Benutzerzustimmung und Sandboxed-Ausführung kombiniert, bildet eine robuste Verteidigung gegen sich entwickelnde Prompt-Injection- und Social-Engineering-Angriffe. Weitere Details zur sicheren Operationalisierung dieser agentischen Fähigkeiten finden Sie in den Diskussionen zu Operationalisierung von agentischer KI.

Zukunftssicherung autonomer Agenten gegen Angriffe von Gegnern

Die Gewährleistung einer sicheren Interaktion mit der adversen Außenwelt ist nicht nur ein wünschenswertes Merkmal, sondern eine notwendige Grundlage für die Entwicklung vollständig autonomer KI-Agenten. OpenAIs Empfehlung für Entwickler, die KI-Modelle in ihre Anwendungen integrieren, ist es, zu überlegen, welche Kontrollen ein menschlicher Agent in einer ähnlichen risikoreichen Situation hätte und diese analogen Beschränkungen innerhalb des KI-Systems zu implementieren.

Obwohl das Bestreben ist, dass maximal intelligente KI-Modelle Social Engineering letztendlich effektiver widerstehen als menschliche Agenten, ist dies nicht immer ein machbares oder kostengünstiges unmittelbares Ziel für jede Anwendung. Daher bleibt das Design von Systemen mit integrierten Beschränkungen und Überwachung entscheidend. OpenAI verpflichtet sich, die Auswirkungen von Social Engineering auf KI-Modelle kontinuierlich zu erforschen und fortschrittliche Verteidigungsmaßnahmen zu entwickeln. Diese Erkenntnisse werden sowohl in ihre Anwendungssicherheitsarchitekturen als auch in die laufenden Trainingsprozesse für ihre KI-Modelle integriert, um einen proaktiven und adaptiven Ansatz zur KI-Sicherheit in einer sich ständig weiterentwickelnden Bedrohungslandschaft zu gewährleisten. Diese zukunftsorientierte Strategie zielt darauf ab, KI-Agenten sowohl leistungsstark als auch von Natur aus vertrauenswürdig zu machen, was Bemühungen zur Verbesserung der Sicherheit im gesamten KI-Ökosystem widerspiegelt, einschließlich Initiativen wie Unterbrechung bösartiger KI-Nutzungen.

Originalquelle

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Häufig gestellte Fragen

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Bleiben Sie informiert

Erhalten Sie die neuesten KI-Nachrichten per E-Mail.