Agenci AI: Odporność na iniekcje promptów dzięki inżynierii społecznej

title: "Agenci AI: Odporność na iniekcje promptów dzięki inżynierii społecznej" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "pl" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "Bezpieczeństwo AI" keywords:

agenci AI
iniekcja promptów
bezpieczeństwo AI
inżynieria społeczna
bezpieczeństwo LLM
ChatGPT
prywatność danych
złośliwe ataki
agentowa AI
OpenAI
inżynieria bezpieczeństwa
Safe Url meta_description: "Dowiedz się, jak OpenAI projektuje agentów AI, aby byli odporni na zaawansowane ataki typu 'prompt injection', wykorzystując strategie obrony oparte na inżynierii społecznej, zapewniając solidne bezpieczeństwo AI i prywatność danych." image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "Agenci AI OpenAI odporni na iniekcje promptów i ataki inżynierii społecznej" quality_score: 94 content_score: 93 seo_score: 95 companies:
OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
question: "Czym jest 'prompt injection' w kontekście agentów AI?" answer: "Prompt injection odnosi się do rodzaju ataku, w którym złośliwe instrukcje są subtelnie osadzone w treści zewnętrznej, którą przetwarza agent AI. Celem jest manipulowanie agentem, aby wykonywał działania lub ujawniał informacje, których użytkownik nie zamierzał ani nie autoryzował. Ataki te wykorzystują zdolność AI do interpretowania i przestrzegania instrukcji, nawet jeśli pochodzą one z niezaufanego źródła, skutecznie przejmując zachowanie agenta do celów wrogich. Wczesne formy mogły być bezpośrednimi poleceniami, ale zaawansowane formy wykorzystują inżynierię społeczną, aby były trudniejsze do wykrycia i bardziej przekonujące, co wymaga wyrafinowanych środków zaradczych w celu utrzymania integralności systemu i zaufania użytkowników."
question: "Jak ewoluowała 'prompt injection' i dlaczego jest to istotne?" answer: "Prompt injection ewoluowała od prostych, jawnych poleceń wrogich (np. bezpośrednie instrukcje na stronie internetowej) do wyrafinowanych taktyk inżynierii społecznej. Wczesne ataki były często wyłapywane przez podstawowe filtrowanie. Jednak w miarę jak modele AI stawały się mądrzejsze, atakujący zaczęli tworzyć prompty, które łączą złośliwe intencje z pozornie legalnym kontekstem, naśladując ludzką inżynierię społeczną. Ta zmiana jest istotna, ponieważ oznacza, że obrona nie może już polegać wyłącznie na identyfikowaniu złośliwych ciągów znaków. Zamiast tego, muszą sprostać szerszemu wyzwaniu, jakim jest opieranie się mylącym lub manipulacyjnym treściom w kontekście, co wymaga bardziej holistycznego, systemowego podejścia do bezpieczeństwa, a nie tylko prostego filtrowania danych wejściowych."
question: "Jak OpenAI broni się przed atakami 'prompt injection' opartymi na inżynierii społecznej?" answer: "OpenAI stosuje wielowarstwową strategię obrony, czerpiącą paralele z zarządzania ryzykiem inżynierii społecznej u ludzi. Obejmuje to perspektywę 'systemu trzech aktorów' (użytkownik, agent, świat zewnętrzny), w której agenci mają ograniczenia, aby skręcić potencjalny wpływ. Kluczowe techniki obejmują 'analizę źródło-ujście' w celu wykrywania niebezpiecznych przepływów danych, mechanizmy Safe Url, które wymagają potwierdzenia od użytkownika lub blokują wrażliwe transmisje do stron trzecich, oraz sandboxing dla narzędzi agentowych, takich jak ChatGPT Canvas i Apps. Nadrzędnym celem jest zapewnienie, że krytyczne działania lub transmisje danych nie odbywają się w sposób cichy, zawsze stawiając na pierwszym miejscu bezpieczeństwo i zgodę użytkownika w celu utrzymania solidnego bezpieczeństwa AI."
question: "Czym jest 'Safe Url' i jak chroni agentów AI oraz użytkowników?" answer: "Safe Url to krytyczna strategia łagodzenia ryzyka opracowana przez OpenAI, mająca na celu ochronę agentów AI i użytkowników przed nieautoryzowaną eksfiltracją danych. Wykrywa, kiedy informacje, których agent AI nauczył się podczas rozmowy lub interakcji, mogą zostać przesłane do zewnętrznego, potencjalnie złośliwego adresu URL strony trzeciej. W przypadku wykrycia takiej transmisji, Safe Url interweniuje, albo wyświetlając wrażliwe informacje użytkownikowi w celu wyraźnego potwierdzenia przed ich wysłaniem, albo całkowicie blokując transmisję i instruując agenta, aby znalazł alternatywną, bezpieczną metodę spełnienia prośby użytkownika. Mechanizm ten zapewnia, że wrażliwe dane pozostają pod kontrolą użytkownika, nawet jeśli agent zostanie chwilowo zwiedziony przez iniekcję promptu inżynierii społecznej."
question: "Dlaczego zgoda użytkownika jest kluczowa dla agentów AI, zwłaszcza w przypadku nowych możliwości?" answer: "Zgoda użytkownika jest nadrzędna dla agentów AI, zwłaszcza w miarę rozszerzania ich możliwości o przeglądanie, interakcję z narzędziami zewnętrznymi i przesyłanie informacji. Dzięki zaawansowanym iniekcjom promptów i taktykom inżynierii społecznej, agent może zostać oszukany, aby wykonać działania, które naruszają prywatność lub bezpieczeństwo. Wymaganie wyraźnej zgody użytkownika na potencjalnie niebezpieczne działania – takie jak przesyłanie wrażliwych danych, przechodzenie do zewnętrznych witryn lub korzystanie z zewnętrznych aplikacji – zapewnia użytkownikom ostateczną kontrolę. Zapobiega to cichym kompromisom i umożliwia użytkownikom potwierdzanie lub odrzucanie działań, działając jako kluczowa, ostatnia warstwa obrony przed manipulacją i nieautoryzowanym zachowaniem, zgodnie z zasadami prywatności danych i autonomii użytkownika."
question: "Czym jest analiza 'źródło-ujście' w kontekście bezpieczeństwa AI?" answer: "Analiza 'źródło-ujście' (source-sink analysis) to podejście inżynierii bezpieczeństwa stosowane przez OpenAI do identyfikacji i łagodzenia ryzyka związanego z przepływem danych w systemach AI. W tym frameworku 'źródło' odnosi się do dowolnego mechanizmu wejściowego, za pomocą którego atakujący może wpływać na system, takiego jak niezaufane treści zewnętrzne, strony internetowe lub wiadomości e-mail przetwarzane przez agenta AI. 'Ujście' odnosi się do możliwości lub działania, które, jeśli zostanie wykorzystane, może stać się niebezpieczne w niewłaściwym kontekście, takie jak przesyłanie informacji do strony trzeciej, podążanie za złośliwym linkiem lub wykonanie narzędzia. Analizując potencjalne ścieżki od źródeł do ujść, zespoły bezpieczeństwa mogą wdrażać kontrole, aby zapobiegać nieautoryzowanemu przemieszczaniu danych lub niebezpiecznym działaniom, nawet jeśli agent AI zostanie częściowo skompromitowany przez atak 'prompt injection'. Metoda ta jest fundamentalna dla zapewnienia integralności danych i bezpieczeństwa systemu."


Agenci AI dynamicznie rozszerzają swoje możliwości, od przeglądania sieci po pobieranie złożonych informacji i wykonywanie działań w imieniu użytkowników. Chociaż te postępy obiecują niespotykaną użyteczność i efektywność, jednocześnie wprowadzają nowe, wyrafinowane powierzchnie ataku. Głównym z nich jest "prompt injection" – metoda, w której złośliwe instrukcje są osadzane w treści zewnętrznej, mając na celu zmanipulowanie modelu AI do wykonywania niezamierzonych działań. OpenAI podkreśla krytyczną ewolucję tych ataków: coraz częściej naśladują one taktyki inżynierii społecznej, co wymaga fundamentalnej zmiany w strategiach obrony, od prostego filtrowania danych wejściowych do solidnego projektowania systemowego.

## Ewolucja zagrożenia: Prompt Injection i inżynieria społeczna
Początkowo ataki typu "prompt injection" były często proste, takie jak osadzanie bezpośrednich poleceń wrogich w artykule Wikipedii, który mógłby przetwarzać agent AI. Wczesne modele, pozbawione doświadczenia z takimi wrogimi środowiskami podczas szkolenia, były podatne na bezwarunkowe przestrzeganie tych jawnych instrukcji. Jednak w miarę dojrzewania i udoskonalania modeli AI, ich podatność na tak jawne sugestie zmniejszyła się. To skłoniło atakujących do opracowania bardziej zniuansowanych metod, które obejmują elementy inżynierii społecznej.

Ta ewolucja jest znacząca, ponieważ wykracza poza samo identyfikowanie złośliwego ciągu znaków. Zamiast tego, stawia przed systemami AI wyzwanie opierania się mylącym lub manipulacyjnym treściom w szerszym kontekście, podobnie jak człowiek stawia czoła inżynierii społecznej. Na przykład, atak "prompt injection" z 2025 roku zgłoszony OpenAI polegał na stworzeniu wiadomości e-mail, która wydawała się nieszkodliwa, ale zawierała osadzone instrukcje mające na celu oszukanie asystenta AI, aby wyodrębnił wrażliwe dane pracowników i przesłał je do "systemu walidacji zgodności". Atak ten wykazał 50% skuteczność w testach, co pokazuje efektywność łączenia legalnie brzmiących żądań ze złośliwymi dyrektywami. Takie złożone ataki często omijają tradycyjne systemy "AI firewalling", które zazwyczaj próbują klasyfikować dane wejściowe na podstawie prostych heurystyk, ponieważ wykrycie tych zniuansowanych manipulacji staje się tak trudne, jak rozróżnienie kłamstwa lub dezinformacji bez pełnego kontekstu sytuacyjnego.

## Agenci AI jako ludzcy odpowiednicy: Lekcje z obrony przed inżynierią społeczną
Aby przeciwdziałać tym zaawansowanym technikom "prompt injection", OpenAI przyjęło zmianę paradygmatu, postrzegając problem przez pryzmat ludzkiej inżynierii społecznej. To podejście uznaje, że celem nie jest doskonała identyfikacja każdego złośliwego wkładu, ale raczej projektowanie agentów AI i systemów w taki sposób, aby wpływ manipulacji był surowo ograniczony, nawet jeśli atak częściowo się powiedzie. Ten sposób myślenia jest analogiczny do zarządzania ryzykiem inżynierii społecznej dla ludzkich pracowników w organizacji.

Rozważmy ludzkiego agenta obsługi klienta upoważnionego do wydawania zwrotów pieniędzy lub kart podarunkowych. Chociaż agent dąży do obsługi klienta, jest on ciągle narażony na zewnętrzne dane wejściowe – z których niektóre mogą być manipulacyjne, a nawet przymuszające. Organizacje łagodzą to ryzyko poprzez wdrażanie zasad, ograniczeń i systemów deterministycznych. Na przykład, agent obsługi klienta może mieć limit liczby zwrotów, które może wydać, lub specyficzne procedury do oznaczania podejrzanych żądań. Podobnie, agent AI, działając w imieniu użytkownika, musi mieć wrodzone ograniczenia i zabezpieczenia. Konceptualizując agentów AI w ramach tego "systemu trzech aktorów" (użytkownik, agent, świat zewnętrzny), gdzie agent musi poruszać się po potencjalnie wrogich danych wejściowych, projektanci mogą wbudować odporność. To podejście uznaje, że niektóre ataki nieuchronnie się przedostaną, ale zapewnia, że ich potencjał szkodliwy jest zminimalizowany. Ta zasada stanowi podstawę solidnego pakietu środków zaradczych wdrożonych przez OpenAI.

| Zasada obrony         | Opis                                                                                                                                                                                                                           | Analogia do systemów ludzkich                                                                    | Korzyść                                                                          |
| :-------------------- | :----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :--------------------------------------------------------------------------------------------- | :------------------------------------------------------------------------------- |
| **Ograniczenie**      | Ograniczenie możliwości i działań agenta do predefiniowanych, bezpiecznych granic, zapobieganie nieautoryzowanym lub zbyt szerokim operacjom.                                                                                    | Limity wydatków, poziomy autoryzacji, egzekwowanie zasad dla pracowników.                       | Zmniejsza potencjalne szkody, nawet jeśli agent zostanie częściowo skompromitowany. |
| **Przejrzystość**     | Wymaganie wyraźnego potwierdzenia od użytkownika dla potencjalnie niebezpiecznych lub wrażliwych działań przed ich wykonaniem.                                                                                               | Zatwierdzenie menedżera dla wyjątków, podwójne sprawdzanie krytycznych danych wejściowych.     | Umożliwia użytkownikom anulowanie lub potwierdzanie wrażliwych operacji, zapewniając kontrolę. |
| **Sandboxing**        | Izolowanie działań agenta, zwłaszcza podczas interakcji z zewnętrznymi narzędziami lub aplikacjami, w bezpiecznym, monitorowanym środowisku.                                                                                   | Kontrolowany dostęp do wrażliwych systemów, segmentowane środowiska sieciowe.                   | Zapobiega wpływaniu złośliwych działań na podstawowe systemy lub eksfiltracji danych. |
| **Kontekstualna AŹU** | Analizowanie źródeł wejściowych i ujść wyjściowych pod kątem podejrzanych przepływów danych lub nieautoryzowanych transmisji, identyfikowanie wzorców wskazujących na złośliwe intencje.                                        | Systemy zapobiegania utracie danych (DLP), protokoły wykrywania zagrożeń wewnętrznych.          | Identyfikuje i blokuje próby nieautoryzowanej eksfiltracji danych.              |
| **Szkolenie wrogie** | Ciągłe szkolenie modeli AI w celu rozpoznawania i opierania się manipulacyjnemu językowi, zwodniczym taktykom i próbom inżynierii społecznej.                                                                                 | Szkolenia z zakresu świadomości bezpieczeństwa, rozpoznawanie phishingu i prób oszustwa.        | Poprawia wrodzoną zdolność agenta do wykrywania i oznaczania złośliwych treści.   |

## Wielowarstwowe mechanizmy obronne OpenAI w ChatGPT
OpenAI integruje ten model inżynierii społecznej z tradycyjnymi technikami inżynierii bezpieczeństwa, w szczególności z "analizą źródło-ujście", w ramach ChatGPT. W tym frameworku atakujący potrzebuje dwóch kluczowych komponentów: "źródła" do wstrzyknięcia wpływu (np. niezaufana treść zewnętrzna) oraz "ujścia" do wykorzystania niebezpiecznej możliwości (np. przesyłanie informacji, podążanie za złośliwym linkiem lub interakcja ze skompromitowanym narzędziem). Głównym celem OpenAI jest utrzymanie fundamentalnego oczekiwania w zakresie bezpieczeństwa: niebezpieczne działania lub przesyłanie wrażliwych informacji nigdy nie powinny odbywać się w sposób cichy lub bez odpowiednich zabezpieczeń.

Wiele ataków na ChatGPT próbuje nakłonić asystenta do wyodrębnienia poufnych informacji z rozmowy i przekazania ich złośliwej stronie trzeciej. Chociaż szkolenie bezpieczeństwa OpenAI często prowadzi agenta do odrzucenia takich żądań, krytyczną strategią łagodzenia ryzyka w przypadkach, gdy agent *zostanie* przekonany, jest `Safe Url`. Mechanizm ten jest specjalnie zaprojektowany do wykrywania, kiedy informacje uzyskane podczas rozmowy mogą zostać przesłane do zewnętrznego adresu URL strony trzeciej. W takich rzadkich przypadkach system albo wyświetla te informacje użytkownikowi w celu wyraźnego potwierdzenia, albo całkowicie blokuje transmisję, zlecając agentowi znalezienie alternatywnego, bezpiecznego sposobu na spełnienie prośby użytkownika. Zapobiega to eksfiltracji danych, nawet jeśli agent zostanie chwilowo skompromitowany. Aby uzyskać dalsze informacje na temat zabezpieczania przed interakcjami z linkami sterowanymi przez agenta, użytkownicy mogą zapoznać się z dedykowanym wpisem na blogu, [Zapewnianie bezpieczeństwa Twoich danych, gdy agent AI klika link](https://openai.com/index/ai-agent-link-safety/).

## Rola Safe URL i Sandboxing w agentowej AI
Mechanizm `Safe Url`, zaprojektowany do wykrywania i kontrolowania przesyłania wrażliwych danych, rozszerza swoją ochronę poza zwykłe kliknięcia linków. Podobne zabezpieczenia są stosowane do nawigacji i zakładek w Atlasie oraz do funkcji wyszukiwania i nawigacji w Deep Research. Aplikacje te z natury rzeczy angażują agentów AI w interakcję z ogromnymi zewnętrznymi źródłami danych, co czyni solidne kontrole dla wychodzących danych priorytetem.

Ponadto, funkcje agentowe, takie jak ChatGPT Canvas i ChatGPT Apps, przyjmują podobną filozofię bezpieczeństwa. Gdy agenci tworzą i wykorzystują funkcjonalne aplikacje, operacje te są ograniczone do bezpiecznego środowiska piaskownicy (sandbox). To sandboxing umożliwia wykrywanie nieoczekiwanych komunikacji lub działań. Co kluczowe, wszelkie potencjalnie wrażliwe lub nieautoryzowane interakcje wywołują żądanie wyraźnej zgody użytkownika, zapewniając, że użytkownicy zachowują ostateczną kontrolę nad swoimi danymi i zachowaniem agenta. To wielowarstwowe podejście, łączące analizę źródło-ujście z świadomością kontekstową, zgodą użytkownika i wykonaniem w piaskownicy, stanowi solidną obronę przed ewoluującymi atakami "prompt injection" i inżynierii społecznej. Aby uzyskać więcej szczegółów na temat bezpiecznego operacjonalizowania tych możliwości agentowych, zapoznaj się z dyskusjami na temat [operacjonalizowania agentowej AI](/pl/operationalizing-agentic-ai-part-1-a-stakeholders-guide).

## Zabezpieczanie przyszłości autonomicznych agentów przed atakami adwersarialnymi
Zapewnienie bezpiecznej interakcji z wrogim światem zewnętrznym nie jest jedynie pożądaną cechą, ale konieczną podstawą rozwoju w pełni autonomicznych agentów AI. Rekomendacja OpenAI dla deweloperów integrujących modele AI w swoich aplikacjach polega na rozważeniu, jakie kontrole miałby ludzki agent w podobnej sytuacji o wysokiej stawce i wdrożeniu tych analogicznych ograniczeń w systemie AI.

Chociaż aspiracją jest, aby maksymalnie inteligentne modele AI ostatecznie skuteczniej opierały się inżynierii społecznej niż agenci ludzcy, nie zawsze jest to wykonalny ani opłacalny natychmiastowy cel dla każdej aplikacji. Dlatego projektowanie systemów z wbudowanymi ograniczeniami i nadzorem pozostaje kluczowe. OpenAI jest zaangażowane w ciągłe badania implikacji inżynierii społecznej wobec modeli AI i rozwijanie zaawansowanych mechanizmów obronnych. Te odkrycia są integrowane zarówno w architekturach bezpieczeństwa ich aplikacji, jak i w bieżących procesach szkoleniowych dla ich modeli AI, zapewniając proaktywne i adaptacyjne podejście do bezpieczeństwa AI w ciągle ewoluującym krajobrazie zagrożeń. Ta perspektywiczna strategia ma na celu uczynienie agentów AI zarówno potężnymi, jak i z natury godnymi zaufania, odzwierciedlając wysiłki na rzecz zwiększenia bezpieczeństwa w całym ekosystemie AI, w tym inicjatywy takie jak [zakłócanie złośliwych zastosowań AI](/pl/disrupting-malicious-ai-uses).

Źródło oryginalne

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Często zadawane pytania

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Bądź na bieżąco

Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.

Udostępnij