title: "KI-Agenten: Prompt Injection mit Social Engineering widerstehen" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "de" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "KI-Sicherheit" keywords:
- KI-Agenten
- Prompt Injection
- KI-Sicherheit
- Social Engineering
- LLM-Sicherheit
- ChatGPT
- Datenschutz
- bösartige Angriffe
- agentische KI
- OpenAI
- Sicherheits-Engineering
- sichere URL meta_description: "Erfahren Sie, wie OpenAI KI-Agenten entwickelt, um fortschrittlichen Prompt-Injection-Angriffen durch den Einsatz von Social-Engineering-Verteidigungsstrategien zu widerstehen und so eine robuste KI-Sicherheit und den Datenschutz zu gewährleisten." image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "OpenAI KI-Agenten widerstehen Prompt-Injection- und Social-Engineering-Angriffen" quality_score: 94 content_score: 93 seo_score: 95 companies:
- OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
- question: "Was ist Prompt Injection im Kontext von KI-Agenten?" answer: "Prompt Injection bezieht sich auf eine Art von Angriff, bei dem bösartige Anweisungen subtil in externen Inhalten eingebettet werden, die ein KI-Agent verarbeitet. Das Ziel ist es, den Agenten so zu manipulieren, dass er Aktionen ausführt oder Informationen preisgibt, die der Benutzer nicht beabsichtigt oder autorisiert hat. Diese Angriffe nutzen die Fähigkeit der KI aus, Anweisungen zu interpretieren und zu befolgen, selbst wenn diese Anweisungen von einer nicht vertrauenswürdigen Quelle stammen, wodurch das Verhalten des Agenten effektiv für feindliche Zwecke gekapert wird. Frühe Formen könnten direkte Befehle sein, aber fortgeschrittene Formen nutzen Social Engineering, um weniger erkennbar und überzeugender zu sein, was ausgeklügelte Gegenmaßnahmen erfordert, um die Systemintegrität und das Benutzervertrauen aufrechtzuerhalten."
- question: "Wie hat sich Prompt Injection entwickelt und warum ist dies bedeutsam?" answer: "Prompt Injection hat sich von einfachen, expliziten Angreiferbefehlen (z. B. direkte Anweisungen auf einer Webseite) zu ausgeklügelten Social-Engineering-Taktiken entwickelt. Frühe Angriffe wurden oft durch grundlegende Filterung abgefangen. Doch mit der Zunahme der Intelligenz von KI-Modellen begannen Angreifer, Prompts zu erstellen, die bösartige Absichten mit scheinbar legitimen Kontexten vermischen und menschliches Social Engineering nachahmen. Diese Verschiebung ist bedeutsam, da sie bedeutet, dass Verteidigungen sich nicht länger ausschließlich auf die Identifizierung bösartiger Zeichenketten verlassen können. Stattdessen müssen sie die umfassendere Herausforderung angehen, irreführenden oder manipulativen Inhalten im Kontext zu widerstehen, was einen ganzheitlicheren, systemischen Ansatz für die Sicherheit erfordert, anstatt nur eine einfache Eingabefilterung."
- question: "Wie verteidigt sich OpenAI gegen Social-Engineering-Prompt-Injection-Angriffe?" answer: "OpenAI setzt eine mehrschichtige Verteidigungsstrategie ein, die Parallelen zum menschlichen Social-Engineering-Risikomanagement zieht. Dazu gehört eine 'Drei-Aktor-System'-Perspektive (Benutzer, Agent, externe Welt), bei der Agenten Beschränkungen erhalten, um potenzielle Auswirkungen zu begrenzen. Zu den Schlüsseltechniken gehören die 'Source-Sink-Analyse' zur Erkennung gefährlicher Datenflüsse, Safe-Url-Mechanismen, die eine Benutzerbestätigung anfordern oder sensible Übertragungen an Dritte blockieren, sowie Sandboxing für agentische Tools wie ChatGPT Canvas und Apps. Das übergeordnete Ziel ist es, sicherzustellen, dass kritische Aktionen oder Datenübertragungen nicht stillschweigend erfolgen, wobei die Benutzersicherheit und -zustimmung stets Priorität haben, um eine robuste KI-Sicherheit aufrechtzuerhalten."
- question: "Was ist Safe Url und wie schützt es KI-Agenten und Benutzer?" answer: "Safe Url ist eine kritische Minderungsstrategie, die von OpenAI entwickelt wurde, um KI-Agenten und Benutzer vor unautorisierter Datenexfiltration zu schützen. Sie erkennt, wenn Informationen, die ein KI-Agent während einer Konversation oder Interaktion gelernt hat, an eine externe, potenziell bösartige Drittanbieter-URL übertragen werden könnten. Wenn eine solche Übertragung erkannt wird, greift Safe Url ein, indem es entweder die sensiblen Informationen dem Benutzer zur expliziten Bestätigung anzeigt, bevor sie gesendet werden, oder indem es die Übertragung vollständig blockiert und den Agenten anweist, eine alternative, sichere Methode zur Erfüllung der Benutzeranfrage zu finden. Dieser Mechanismus stellt sicher, dass sensible Daten unter der Kontrolle des Benutzers bleiben, selbst wenn ein Agent durch eine Social-Engineering-Prompt-Injection vorübergehend beeinflusst wird."
- question: "Warum ist die Benutzerzustimmung für KI-Agenten entscheidend, insbesondere bei neuen Funktionen?" answer: "Die Benutzerzustimmung ist für KI-Agenten von größter Bedeutung, insbesondere da sich ihre Fähigkeiten erweitern und das Browsen, die Interaktion mit externen Tools und die Übertragung von Informationen umfassen. Mit fortschrittlichen Prompt-Injection- und Social-Engineering-Taktiken könnte ein Agent dazu verleitet werden, Aktionen auszuführen, die die Privatsphäre oder Sicherheit gefährden. Die Anforderung einer expliziten Benutzerzustimmung für potenziell gefährliche Aktionen – wie die Übertragung sensibler Daten, das Navigieren zu externen Websites oder die Nutzung externer Anwendungen – stellt sicher, dass Benutzer die letztendliche Kontrolle behalten. Dies verhindert stille Kompromittierungen und befähigt Benutzer, Aktionen zu bestätigen oder abzulehnen, was als entscheidende letzte Verteidigungsschicht gegen Manipulation und unautorisiertes Verhalten dient und den Prinzipien des Datenschutzes und der Benutzerautonomie entspricht."
- question: "Was ist die 'Source-Sink'-Analyse im Kontext der KI-Sicherheit?" answer: "Die Source-Sink-Analyse ist ein Sicherheits-Engineering-Ansatz, der von OpenAI verwendet wird, um Risiken im Zusammenhang mit dem Datenfluss innerhalb von KI-Systemen zu identifizieren und zu mindern. In diesem Rahmen bezieht sich eine 'Source' (Quelle) auf jeden Eingabemechanismus, über den ein Angreifer das System beeinflussen kann, wie z. B. nicht vertrauenswürdige externe Inhalte, Webseiten oder E-Mails, die von einem KI-Agenten verarbeitet werden. Eine 'Sink' (Senke) bezieht sich auf eine Fähigkeit oder Aktion, die, wenn sie ausgenutzt wird, im falschen Kontext gefährlich werden könnte, wie z. B. die Übertragung von Informationen an Dritte, das Folgen eines bösartigen Links oder die Ausführung eines Tools. Durch die Analyse potenzieller Pfade von Quellen zu Senken können Sicherheitsteams Kontrollen implementieren, um unautorisierte Datenbewegungen oder gefährliche Aktionen zu verhindern, selbst wenn ein KI-Agent teilweise durch einen Prompt-Injection-Angriff kompromittiert wird. Diese Methode ist grundlegend für die Gewährleistung der Datenintegrität und Systemsicherheit."
KI-Agenten erweitern ihre Fähigkeiten rasant, vom Browsen im Web über das Abrufen komplexer Informationen bis hin zur Ausführung von Aktionen im Auftrag von Benutzern. Während diese Fortschritte einen beispiellosen Nutzen und Effizienz versprechen, führen sie gleichzeitig ausgeklügelte neue Angriffsflächen ein. Hauptsächlich ist dies die Prompt Injection – eine Methode, bei der bösartige Anweisungen in externen Inhalten eingebettet werden, um ein KI-Modell dazu zu manipulieren, unbeabsichtigte Aktionen auszuführen. OpenAI hebt eine kritische Entwicklung dieser Angriffe hervor: Sie ahmen zunehmend Social-Engineering-Taktiken nach, was eine grundlegende Verschiebung der Verteidigungsstrategien von einfacher Eingabefilterung hin zu einem robusten systemischen Design erfordert.
Sich entwickelnde Bedrohung: Prompt Injection und Social Engineering
Anfänglich waren Prompt-Injection-Angriffe oft unkompliziert, wie das Einbetten direkter adverser Befehle in einen Wikipedia-Artikel, den ein KI-Agent verarbeiten könnte. Frühe Modelle, denen die Trainingserfahrung in solchen adversen Umgebungen fehlte, neigten dazu, diesen expliziten Anweisungen fraglos zu folgen. Doch mit der Reifung und Verfeinerung der KI-Modelle hat ihre Anfälligkeit für solche offenkundigen Vorschläge abgenommen. Dies hat Angreifer dazu angespornt, nuanciertere Methoden zu entwickeln, die Elemente des Social Engineering beinhalten.
Diese Entwicklung ist bedeutsam, da sie über die bloße Identifizierung einer bösartigen Zeichenkette hinausgeht. Stattdessen fordert sie KI-Systeme heraus, irreführenden oder manipulativen Inhalten in einem breiteren Kontext zu widerstehen, ähnlich wie ein Mensch Social Engineering ausgesetzt wäre. Beispielsweise umfasste ein OpenAI im Jahr 2025 gemeldeter Prompt-Injection-Angriff die Erstellung einer E-Mail, die harmlos wirkte, aber eingebettete Anweisungen enthielt, die darauf abzielten, einen KI-Assistenten dazu zu bringen, sensible Mitarbeiterdaten zu extrahieren und an ein "Compliance-Validierungssystem" zu übermitteln. Dieser Angriff zeigte eine Erfolgsquote von 50 % in Tests, was die Effektivität der Mischung aus legitim klingenden Anfragen und bösartigen Anweisungen demonstriert. Solche komplexen Angriffe umgehen oft traditionelle "KI-Firewalling"-Systeme, die typischerweise versuchen, Eingaben auf der Grundlage einfacher Heuristiken zu klassifizieren, da das Erkennen dieser nuancierten Manipulationen so schwierig wird wie das Erkennen einer Lüge oder Fehlinformation ohne vollständigen situativen Kontext.
KI-Agenten als menschliche Pendants: Lehren aus Social-Engineering-Verteidigungen
Um diesen fortschrittlichen Prompt-Injection-Techniken entgegenzuwirken, hat OpenAI einen Paradigmenwechsel vollzogen und betrachtet das Problem durch die Brille des menschlichen Social Engineering. Dieser Ansatz erkennt an, dass das Ziel nicht die perfekte Identifizierung jeder bösartigen Eingabe ist, sondern vielmehr die Gestaltung von KI-Agenten und -Systemen, sodass die Auswirkungen der Manipulation stark eingeschränkt sind, selbst wenn ein Angriff teilweise erfolgreich ist. Diese Denkweise ist vergleichbar mit dem Management von Social-Engineering-Risiken für menschliche Mitarbeiter innerhalb einer Organisation.
Stellen Sie sich einen menschlichen Kundendienstmitarbeiter vor, der die Befugnis hat, Rückerstattungen oder Geschenkkarten auszustellen. Obwohl der Agent darauf abzielt, dem Kunden zu dienen, ist er kontinuierlich externen Eingaben ausgesetzt – von denen einige manipulativ oder sogar zwanghaft sein können. Organisationen mindern dieses Risiko, indem sie Regeln, Beschränkungen und deterministische Systeme implementieren. Zum Beispiel könnte ein Kundendienstmitarbeiter eine Obergrenze für die Anzahl der Rückerstattungen haben, die er ausstellen kann, oder spezifische Verfahren, um verdächtige Anfragen zu kennzeichnen. Ähnlich muss ein KI-Agent, der im Auftrag eines Benutzers agiert, inhärente Beschränkungen und Schutzmaßnahmen besitzen. Indem KI-Agenten innerhalb dieses "Drei-Aktor-Systems" (Benutzer, Agent, externe Welt) konzipiert werden, in dem der Agent potenziell feindliche externe Eingaben navigieren muss, können Designer Resilienz einbauen. Dieser Ansatz erkennt an, dass einige Angriffe unweigerlich durchschlüpfen werden, aber stellt sicher, dass ihr Schadenspotenzial minimiert wird. Dieses Prinzip untermauert eine robuste Suite von Gegenmaßnahmen, die von OpenAI eingesetzt werden.
| Verteidigungsprinzip | Beschreibung | Analogie zu menschlichen Systemen | Nutzen |
|---|---|---|---|
| Einschränkung | Begrenzung der Agentenfähigkeiten und -aktionen auf vordefinierte, sichere Grenzen, um unautorisierte oder zu weitgehende Operationen zu verhindern. | Ausgabenlimits, Autorisierungsstufen, Richtliniendurchsetzung für Mitarbeiter. | Reduziert potenziellen Schaden, selbst wenn ein Agent teilweise kompromittiert ist. |
| Transparenz | Erfordert eine explizite Benutzerbestätigung für potenziell gefährliche oder sensible Aktionen, bevor diese ausgeführt werden. | Managergenehmigung für Ausnahmen, doppelte Überprüfung kritischer Dateneingaben. | Ermöglicht Benutzern, sensible Operationen zu überschreiben oder zu bestätigen, um die Kontrolle zu gewährleisten. |
| Sandboxing | Isolation von Agentenaktionen, insbesondere bei der Interaktion mit externen Tools oder Anwendungen, innerhalb einer sicheren, überwachten Umgebung. | Kontrollierter Zugriff auf sensible Systeme, segmentierte Netzwerkumgebungen. | Verhindert, dass bösartige Aktionen Kernsysteme beeinflussen oder Daten exfiltrieren. |
| Kontextuelle Q&S-Analyse | Analyse von Eingabequellen ('Sources') und Ausgabesenken ('Sinks') auf verdächtige Datenflüsse oder unautorisierte Übertragungen, um Muster zu identifizieren, die auf bösartige Absichten hindeuten. | Systeme zur Verhinderung von Datenverlust (DLP), Protokolle zur Erkennung von Insider-Bedrohungen. | Identifiziert und blockiert unautorisierte Datenexfiltrationsversuche. |
| Adversariales Training | Kontinuierliches Training von KI-Modellen, um manipulative Sprache, täuschende Taktiken und Social-Engineering-Versuche zu erkennen und ihnen zu widerstehen. | Sicherheitsschulungen, Erkennen von Phishing- und Betrugsversuchen. | Verbessert die inhärente Fähigkeit des Agenten, bösartige Inhalte zu erkennen und zu kennzeichnen. |
OpenAIs mehrschichtige Verteidigungsmechanismen in ChatGPT
OpenAI integriert dieses Social-Engineering-Modell mit traditionellen Sicherheits-Engineering-Techniken, insbesondere der "Source-Sink-Analyse", in ChatGPT. In diesem Rahmen benötigt ein Angreifer zwei Schlüsselkomponenten: eine "Source" (Quelle), um Einfluss einzuschleusen (z. B. nicht vertrauenswürdige externe Inhalte), und eine "Sink" (Senke), um eine gefährliche Fähigkeit auszunutzen (z. B. Informationen zu übertragen, einem bösartigen Link zu folgen oder mit einem kompromittierten Tool zu interagieren). OpenAIs primäres Ziel ist es, eine grundlegende Sicherheitserwartung aufrechtzuerhalten: Gefährliche Aktionen oder die Übertragung sensibler Informationen sollten niemals stillschweigend oder ohne entsprechende Schutzmaßnahmen erfolgen.
Viele Angriffe auf ChatGPT versuchen, den Assistenten dazu zu bringen, geheime Gesprächsinformationen zu extrahieren und an einen bösartigen Dritten weiterzuleiten. Während OpenAIs Sicherheitstraining den Agenten oft dazu veranlasst, solche Anfragen abzulehnen, ist Safe Url eine kritische Minderungsstrategie für Fälle, in denen der Agent überzeugt wird. Dieser Mechanismus ist speziell dafür konzipiert, zu erkennen, wenn während einer Konversation gelernte Informationen an eine externe Drittanbieter-URL übertragen werden könnten. In solch seltenen Fällen zeigt das System entweder die Informationen dem Benutzer zur expliziten Bestätigung an oder blockiert die Übertragung vollständig und fordert den Agenten auf, einen alternativen, sicheren Weg zu finden, um die Benutzeranfrage zu erfüllen. Dies verhindert Datenexfiltration, selbst wenn der Agent vorübergehend kompromittiert ist. Für weitere Einblicke in den Schutz vor Agenten-gesteuerten Link-Interaktionen können Benutzer den speziellen Blogbeitrag Keeping your data safe when an AI agent clicks a link konsultieren.
Die Rolle von Safe URL und Sandboxing in der agentischen KI
Der Safe Url-Mechanismus, der zur Erkennung und Kontrolle sensibler Datenübertragungen entwickelt wurde, erweitert seine schützende Reichweite über bloße Link-Klicks hinaus. Ähnliche Schutzmaßnahmen werden auf Navigationen und Lesezeichen in Atlas sowie auf Such- und Navigationsfunktionen in Deep Research angewendet. Diese Anwendungen involvieren von Natur aus KI-Agenten, die mit riesigen externen Datenquellen interagieren, wodurch robuste Kontrollen für ausgehende Daten von größter Bedeutung sind.
Darüber hinaus übernehmen agentische Funktionen wie ChatGPT Canvas und ChatGPT Apps eine ähnliche Sicherheitsphilosophie. Wenn Agenten funktionale Anwendungen erstellen und nutzen, werden diese Operationen in einer sicheren Sandbox-Umgebung ausgeführt. Dieses Sandboxing ermöglicht die Erkennung unerwarteter Kommunikationen oder Aktionen. Entscheidend ist, dass potenziell sensible oder unautorisierte Interaktionen eine Anforderung zur expliziten Benutzerzustimmung auslösen, wodurch sichergestellt wird, dass Benutzer die letztendliche Kontrolle über ihre Daten und das Verhalten des Agenten behalten. Dieser mehrschichtige Ansatz, der die Source-Sink-Analyse mit Kontextbewusstsein, Benutzerzustimmung und Sandboxed-Ausführung kombiniert, bildet eine robuste Verteidigung gegen sich entwickelnde Prompt-Injection- und Social-Engineering-Angriffe. Weitere Details zur sicheren Operationalisierung dieser agentischen Fähigkeiten finden Sie in den Diskussionen zu Operationalisierung von agentischer KI.
Zukunftssicherung autonomer Agenten gegen Angriffe von Gegnern
Die Gewährleistung einer sicheren Interaktion mit der adversen Außenwelt ist nicht nur ein wünschenswertes Merkmal, sondern eine notwendige Grundlage für die Entwicklung vollständig autonomer KI-Agenten. OpenAIs Empfehlung für Entwickler, die KI-Modelle in ihre Anwendungen integrieren, ist es, zu überlegen, welche Kontrollen ein menschlicher Agent in einer ähnlichen risikoreichen Situation hätte und diese analogen Beschränkungen innerhalb des KI-Systems zu implementieren.
Obwohl das Bestreben ist, dass maximal intelligente KI-Modelle Social Engineering letztendlich effektiver widerstehen als menschliche Agenten, ist dies nicht immer ein machbares oder kostengünstiges unmittelbares Ziel für jede Anwendung. Daher bleibt das Design von Systemen mit integrierten Beschränkungen und Überwachung entscheidend. OpenAI verpflichtet sich, die Auswirkungen von Social Engineering auf KI-Modelle kontinuierlich zu erforschen und fortschrittliche Verteidigungsmaßnahmen zu entwickeln. Diese Erkenntnisse werden sowohl in ihre Anwendungssicherheitsarchitekturen als auch in die laufenden Trainingsprozesse für ihre KI-Modelle integriert, um einen proaktiven und adaptiven Ansatz zur KI-Sicherheit in einer sich ständig weiterentwickelnden Bedrohungslandschaft zu gewährleisten. Diese zukunftsorientierte Strategie zielt darauf ab, KI-Agenten sowohl leistungsstark als auch von Natur aus vertrauenswürdig zu machen, was Bemühungen zur Verbesserung der Sicherheit im gesamten KI-Ökosystem widerspiegelt, einschließlich Initiativen wie Unterbrechung bösartiger KI-Nutzungen.
Häufig gestellte Fragen
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
Bleiben Sie informiert
Erhalten Sie die neuesten KI-Nachrichten per E-Mail.
