Mga Ahente ng AI: Paglaban sa Prompt Injection Gamit ang Social Engineering

Ang mga ahente ng AI ay mabilis na lumalawak ang kanilang mga kakayahan, mula sa pagba-browse sa web hanggang sa pagkuha ng kumplikadong impormasyon at pagsasagawa ng mga aksyon para sa mga gumagamit. Habang ang mga pagsulong na ito ay nangangako ng walang kaparis na utility at kahusayan, sabay silang nagpapakilala ng mga sopistikadong bagong attack surfaces. Pangunahin sa mga ito ang prompt injection—isang paraan kung saan ang mapanirang tagubilin ay nakabaon sa loob ng panlabas na nilalaman, na naglalayong manipulahin ang isang modelo ng AI upang magsagawa ng mga hindi nilayon na aksyon. Ibinibida ng OpenAI ang isang kritikal na ebolusyon sa mga pag-atakeng ito: lalo silang gumagaya sa mga taktika ng social engineering, na nangangailangan ng pundamental na pagbabago sa mga estratehiya sa depensa mula sa simpleng pag-filter ng input patungo sa matatag na disenyo ng sistema.

Sa simula, ang mga pag-atake ng prompt injection ay madalas na direkta, tulad ng pagbaon ng direktang mapanirang utos sa loob ng isang artikulo sa Wikipedia na maaaring iproseso ng isang ahente ng AI. Ang mga maagang modelo, na kulang sa karanasan sa pagsasanay sa mga ganitong mapanirang kapaligiran, ay madaling sumunod sa mga tahasang tagubiling ito nang walang pag-aalinlangan. Gayunpaman, habang ang mga modelo ng AI ay nagiging mas mature at mas sopistikado, bumababa ang kanilang kahinaan sa mga hayagang mungkahi. Ito ang nagtulak sa mga umaatake na bumuo ng mas nuanced na pamamaraan na nagsasama ng mga elemento ng social engineering.

Ang ebolusyon na ito ay mahalaga dahil lumalampas na ito sa simpleng pagtukoy ng isang mapanirang string. Sa halip, hinahamon nito ang mga sistema ng AI na labanan ang mapanlinlang o mapanlinlang na nilalaman sa loob ng mas malawak na konteksto, tulad ng isang tao na nahaharap sa social engineering. Halimbawa, isang prompt injection attack noong 2025 na naiulat sa OpenAI ang kinasasangkutan ng paggawa ng isang email na tila inosente ngunit naglalaman ng nakabaon na tagubilin na idinisenyo upang dayain ang isang AI assistant upang kunin ang sensitibong data ng empleyado at isumite ito sa isang "compliance validation system." Ang pag-atakeng ito ay nagpakita ng 50% na rate ng tagumpay sa pagsubok, na nagpapakita ng pagiging epektibo ng pagsasama ng mga tila lehitimong kahilingan sa mga mapanirang direktiba. Ang mga kumplikadong pag-atake na ito ay madalas na lumalampas sa tradisyonal na mga sistema ng "AI firewalling," na karaniwang sumusubok na uriin ang mga input batay sa simpleng heuristics, dahil ang pagtukoy sa mga nuanced na manipulasyon na ito ay nagiging kasinghirap ng pagkilala sa isang kasinungalingan o maling impormasyon nang walang buong konteksto ng sitwasyon.

Upang labanan ang mga advanced na pamamaraan ng prompt injection, ang OpenAI ay nagpatibay ng isang pagbabago ng paradigma, tinitingnan ang problema sa pamamagitan ng lente ng human social engineering. Kinikilala ng diskarte na ito na ang layunin ay hindi ang perpektong pagtukoy ng bawat mapanirang input, kundi ang pagdidisenyo ng mga ahente ng AI at mga sistema upang ang epekto ng manipulasyon ay lubos na limitado, kahit na ang isang pag-atake ay bahagyang magtagumpay. Ang pag-iisip na ito ay kahalintulad sa pamamahala ng mga panganib sa social engineering para sa mga empleyado ng tao sa loob ng isang organisasyon.

Isipin ang isang customer service agent na tao na pinagkakatiwalaan ng kakayahang mag-isyu ng mga refund o gift card. Habang layunin ng ahente na paglingkuran ang customer, patuloy siyang nalalantad sa mga panlabas na input—na ang ilan ay maaaring mapanlinlang o mapilit pa. Pinapagaan ng mga organisasyon ang panganib na ito sa pamamagitan ng pagpapatupad ng mga patakaran, limitasyon, at deterministikong sistema. Halimbawa, maaaring may limitasyon ang isang customer service agent sa bilang ng mga refund na maaari niyang ilabas, o mga partikular na pamamaraan upang markahan ang mga kahina-hinalang kahilingan. Katulad nito, ang isang ahente ng AI, habang gumagana para sa isang gumagamit, ay dapat magkaroon ng likas na limitasyon at pananggalang. Sa pamamagitan ng pagbuo ng mga ahente ng AI sa loob ng "tatlong-aktor na sistema" na ito (gumagamit, ahente, panlabas na mundo), kung saan ang ahente ay dapat mag-navigate sa posibleng mapanirang panlabas na input, maaaring magtayo ang mga designer ng katatagan. Kinikilala ng diskarteng ito na ang ilang pag-atake ay hindi maiiwasang makalusot, ngunit tinitiyak nito na ang kanilang potensyal para sa pinsala ay pinaliit. Ang prinsipyong ito ang sumusuporta sa isang matatag na hanay ng mga panlaban na inilalagay ng OpenAI.

Prinsipyo ng Depensa	Deskripsyon	Analohiya sa mga Sistema ng Tao	Benepisyo
Pagtatakda ng Limitasyon	Paglilimita sa mga kakayahan at aksyon ng ahente sa paunang natukoy, ligtas na hangganan, pinipigilan ang hindi awtorisado o labis na malawak na operasyon.	Mga limitasyon sa paggastos, mga tier ng pahintulot, pagpapatupad ng patakaran para sa mga empleyado.	Pinapaliit ang posibleng pinsala kahit na bahagyang nakompromiso ang isang ahente.
Transparansya	Nangangailangan ng tahasang kumpirmasyon ng gumagamit para sa posibleng mapanganib o sensitibong aksyon bago ito isagawa.	Pag-apruba ng manager para sa mga pagbubukod, pagdoble-check ng kritikal na pagpasok ng data.	Nagbibigay kapangyarihan sa mga gumagamit na i-override o kumpirmahin ang mga sensitibong operasyon, tinitiyak ang kontrol.
Sandboxing	Paghihiwalay sa mga aksyon ng ahente, lalo na kapag nakikipag-ugnayan sa mga panlabas na tool o aplikasyon, sa loob ng isang secure, sinusubaybayan na kapaligiran.	Kontroladong pag-access sa mga sensitibong sistema, naka-segment na kapaligiran ng network.	Pinipigilan ang mga mapanirang aksyon na makaapekto sa mga pangunahing sistema o makalabas ng data.
Kontekstuwal na S&S	Pagsusuri ng mga pinagmulan ng input at mga labasan ng output para sa kahina-hinalang daloy ng data o hindi awtorisadong pagpapadala, pagtukoy ng mga pattern na nagpapahiwatig ng masamang hangarin.	Mga sistema ng Data Loss Prevention (DLP), mga protocol sa pagtukoy ng banta ng tagaloob.	Nakikita at hinaharangan ang mga hindi awtorisadong pagtatangka sa pagkuha ng data.
Pagsasanay sa Mapanirang Pag-atake	Patuloy na pagsasanay sa mga modelo ng AI upang makilala at labanan ang mapanlinlang na wika, mapanlinlang na taktika, at mga pagtatangka ng social engineering.	Pagsasanay sa kamalayan sa seguridad, pagkilala sa phishing at mga pagtatangka ng scam.	Pinapabuti ang likas na kakayahan ng ahente na makita at markahan ang mapanirang nilalaman.

Mga Multi-Layered na Depensa ng OpenAI sa ChatGPT

Isinasama ng OpenAI ang modelong ito ng social engineering sa tradisyonal na mga pamamaraan ng security engineering, lalo na ang "source-sink analysis," sa loob ng ChatGPT. Sa balangkas na ito, kailangan ng isang umaatake ng dalawang pangunahing bahagi: isang "source" upang magpasok ng impluwensya (hal., hindi pinagkakatiwalaang panlabas na nilalaman) at isang "sink" upang pagsamantalahan ang isang mapanganib na kakayahan (hal., pagpapadala ng impormasyon, pagsunod sa isang mapanirang link, o pakikipag-ugnayan sa isang nakompromisong tool). Ang pangunahing layunin ng OpenAI ay panindigan ang isang pundamental na inaasahan sa seguridad: ang mga mapanganib na aksyon o ang pagpapadala ng sensitibong impormasyon ay hindi dapat mangyari nang tahimik o nang walang angkop na pananggalang.

Maraming pag-atake laban sa ChatGPT ang sumusubok na dayain ang assistant upang kunin ang lihim na impormasyon ng pag-uusap at ipasa ito sa isang mapanirang third party. Habang ang pagsasanay sa kaligtasan ng OpenAI ay madalas na humahantong sa ahente na tanggihan ang mga ganitong kahilingan, isang kritikal na estratehiya sa pagpapagaan para sa mga kaso kung saan ang ahente ay nakumbinsi ay ang Safe Url. Ang mekanismong ito ay partikular na idinisenyo upang makita kung kailan ang impormasyon na natutunan sa panahon ng isang pag-uusap ay maaaring ipasa sa isang panlabas na third-party na URL. Sa mga bihirang pagkakataong ito, ang sistema ay alinman sa ipinapakita ang impormasyon sa gumagamit para sa tahasang kumpirmasyon bago ipadala ito, o tuluyang hinaharangan ang pagpapadala, na nagtuturo sa ahente na humanap ng alternatibo, secure na paraan upang matugunan ang kahilingan ng gumagamit. Pinipigilan nito ang paglabas ng data kahit na ang ahente ay pansamantalang nakompromiso. Para sa karagdagang pananaw sa pagpapanatili ng kaligtasan laban sa mga interaksyon ng link na hinimok ng ahente, maaaring sumangguni ang mga gumagamit sa nakalaang blog post, Pagpapanatiling ligtas ng iyong data kapag ang isang ahente ng AI ay nag-click ng isang link.

Ang Papel ng Safe URL at Sandboxing sa Agentic AI

Ang mekanismo ng Safe Url, na idinisenyo para sa pagtukoy at pagkontrol sa pagpapadala ng sensitibong data, ay lumalawak ang saklaw ng proteksyon nito lampas sa simpleng pag-click ng link. Ang mga katulad na pananggalang ay inilalapat sa mga navigation at bookmark sa loob ng Atlas at sa mga function ng paghahanap at navigation sa Deep Research. Ang mga aplikasyong ito ay likas na nagsasangkot ng mga ahente ng AI na nakikipag-ugnayan sa malalawak na panlabas na pinagmulan ng data, na ginagawang napakahalaga ang matatag na kontrol para sa papalabas na data.

Higit pa rito, ang mga agentic feature tulad ng ChatGPT Canvas at ChatGPT Apps ay nagpatibay ng katulad na pilosopiya sa seguridad. Kapag ang mga ahente ay lumilikha at gumagamit ng mga functional na aplikasyon, ang mga operasyong ito ay nakakulong sa loob ng isang secure na kapaligiran ng sandbox. Ang sandboxing na ito ay nagbibigay-daan para sa pagtukoy ng mga hindi inaasahang komunikasyon o aksyon. Mahalaga, ang anumang potensyal na sensitibo o hindi awtorisadong interaksyon ay nagpapalitaw ng kahilingan para sa tahasang pahintulot ng gumagamit, na tinitiyak na ang mga gumagamit ay nagpapanatili ng sukdulang kontrol sa kanilang data at sa pag-uugali ng ahente. Ang multi-layered na diskarte na ito, na pinagsasama ang source-sink analysis na may kontekstuwal na kamalayan, pahintulot ng gumagamit, at sandboxed execution, ay bumubuo ng isang matatag na depensa laban sa umuunlad na prompt injection at mga pag-atake ng social engineering. Para sa higit pang detalye sa kung paano ginagawang operational nang ligtas ang mga agentic na kakayahan na ito, sumangguni sa mga talakayan sa pagpapatakbo ng agentic AI.

Pagpaplano sa Kinabukasan ng Mga Awtomatikong Ahente Laban sa Mga Pag-atake ng Kalaban

Ang pagtiyak ng ligtas na pakikipag-ugnayan sa mapanirang panlabas na mundo ay hindi lamang isang kanais-nais na tampok kundi isang kinakailangang pundasyon para sa pagbuo ng ganap na awtomatikong mga ahente ng AI. Ang rekomendasyon ng OpenAI para sa mga developer na naglalagay ng mga modelo ng AI sa kanilang mga aplikasyon ay isaalang-alang kung anong mga kontrol ang magkakaroon ang isang ahente ng tao sa isang katulad na mataas na pusta na sitwasyon at ipatupad ang mga katulad na limitasyon sa loob ng sistema ng AI.

Habang ang hangarin ay para sa mga pinakamatalinong modelo ng AI na sa huli ay labanan ang social engineering nang mas epektibo kaysa sa mga ahente ng tao, hindi ito laging isang posible o cost-effective na agarang layunin para sa bawat aplikasyon. Samakatuwid, ang pagdidisenyo ng mga sistema na may built-in na limitasyon at pangangasiwa ay nananatiling kritikal. Nakatuon ang OpenAI sa patuloy na pananaliksik sa mga implikasyon ng social engineering laban sa mga modelo ng AI at sa pagbuo ng mga advanced na depensa. Ang mga natuklasan na ito ay isinasama sa parehong kanilang mga arkitektura ng seguridad ng aplikasyon at sa patuloy na proseso ng pagsasanay para sa kanilang mga modelo ng AI, na tinitiyak ang isang proactive at adaptive na diskarte sa seguridad ng AI sa isang patuloy na umuunlad na landscape ng banta. Ang diskarte na ito na nakatuon sa hinaharap ay naglalayong gawing parehong makapangyarihan at likas na mapagkakatiwalaan ang mga ahente ng AI, na sumasalamin sa mga pagsisikap na mapabuti ang seguridad sa buong ekosistema ng AI, kabilang ang mga inisyatiba tulad ng paghadlang sa mapanirang paggamit ng AI.

Orihinal na pinagmulan

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Mga Karaniwang Tanong

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Manatiling Updated

Kunin ang pinakabagong AI news sa iyong inbox.

I-share