Ang mga ahente ng AI ay mabilis na lumalawak ang kanilang mga kakayahan, mula sa pagba-browse sa web hanggang sa pagkuha ng kumplikadong impormasyon at pagsasagawa ng mga aksyon para sa mga gumagamit. Habang ang mga pagsulong na ito ay nangangako ng walang kaparis na utility at kahusayan, sabay silang nagpapakilala ng mga sopistikadong bagong attack surfaces. Pangunahin sa mga ito ang prompt injection—isang paraan kung saan ang mapanirang tagubilin ay nakabaon sa loob ng panlabas na nilalaman, na naglalayong manipulahin ang isang modelo ng AI upang magsagawa ng mga hindi nilayon na aksyon. Ibinibida ng OpenAI ang isang kritikal na ebolusyon sa mga pag-atakeng ito: lalo silang gumagaya sa mga taktika ng social engineering, na nangangailangan ng pundamental na pagbabago sa mga estratehiya sa depensa mula sa simpleng pag-filter ng input patungo sa matatag na disenyo ng sistema.
Umuunlad na Banta: Prompt Injection at Social Engineering
Sa simula, ang mga pag-atake ng prompt injection ay madalas na direkta, tulad ng pagbaon ng direktang mapanirang utos sa loob ng isang artikulo sa Wikipedia na maaaring iproseso ng isang ahente ng AI. Ang mga maagang modelo, na kulang sa karanasan sa pagsasanay sa mga ganitong mapanirang kapaligiran, ay madaling sumunod sa mga tahasang tagubiling ito nang walang pag-aalinlangan. Gayunpaman, habang ang mga modelo ng AI ay nagiging mas mature at mas sopistikado, bumababa ang kanilang kahinaan sa mga hayagang mungkahi. Ito ang nagtulak sa mga umaatake na bumuo ng mas nuanced na pamamaraan na nagsasama ng mga elemento ng social engineering.
Ang ebolusyon na ito ay mahalaga dahil lumalampas na ito sa simpleng pagtukoy ng isang mapanirang string. Sa halip, hinahamon nito ang mga sistema ng AI na labanan ang mapanlinlang o mapanlinlang na nilalaman sa loob ng mas malawak na konteksto, tulad ng isang tao na nahaharap sa social engineering. Halimbawa, isang prompt injection attack noong 2025 na naiulat sa OpenAI ang kinasasangkutan ng paggawa ng isang email na tila inosente ngunit naglalaman ng nakabaon na tagubilin na idinisenyo upang dayain ang isang AI assistant upang kunin ang sensitibong data ng empleyado at isumite ito sa isang "compliance validation system." Ang pag-atakeng ito ay nagpakita ng 50% na rate ng tagumpay sa pagsubok, na nagpapakita ng pagiging epektibo ng pagsasama ng mga tila lehitimong kahilingan sa mga mapanirang direktiba. Ang mga kumplikadong pag-atake na ito ay madalas na lumalampas sa tradisyonal na mga sistema ng "AI firewalling," na karaniwang sumusubok na uriin ang mga input batay sa simpleng heuristics, dahil ang pagtukoy sa mga nuanced na manipulasyon na ito ay nagiging kasinghirap ng pagkilala sa isang kasinungalingan o maling impormasyon nang walang buong konteksto ng sitwasyon.
Mga Ahente ng AI Bilang Katumbas ng Tao: Mga Aral Mula sa Mga Depensa sa Social Engineering
Upang labanan ang mga advanced na pamamaraan ng prompt injection, ang OpenAI ay nagpatibay ng isang pagbabago ng paradigma, tinitingnan ang problema sa pamamagitan ng lente ng human social engineering. Kinikilala ng diskarte na ito na ang layunin ay hindi ang perpektong pagtukoy ng bawat mapanirang input, kundi ang pagdidisenyo ng mga ahente ng AI at mga sistema upang ang epekto ng manipulasyon ay lubos na limitado, kahit na ang isang pag-atake ay bahagyang magtagumpay. Ang pag-iisip na ito ay kahalintulad sa pamamahala ng mga panganib sa social engineering para sa mga empleyado ng tao sa loob ng isang organisasyon.
Isipin ang isang customer service agent na tao na pinagkakatiwalaan ng kakayahang mag-isyu ng mga refund o gift card. Habang layunin ng ahente na paglingkuran ang customer, patuloy siyang nalalantad sa mga panlabas na input—na ang ilan ay maaaring mapanlinlang o mapilit pa. Pinapagaan ng mga organisasyon ang panganib na ito sa pamamagitan ng pagpapatupad ng mga patakaran, limitasyon, at deterministikong sistema. Halimbawa, maaaring may limitasyon ang isang customer service agent sa bilang ng mga refund na maaari niyang ilabas, o mga partikular na pamamaraan upang markahan ang mga kahina-hinalang kahilingan. Katulad nito, ang isang ahente ng AI, habang gumagana para sa isang gumagamit, ay dapat magkaroon ng likas na limitasyon at pananggalang. Sa pamamagitan ng pagbuo ng mga ahente ng AI sa loob ng "tatlong-aktor na sistema" na ito (gumagamit, ahente, panlabas na mundo), kung saan ang ahente ay dapat mag-navigate sa posibleng mapanirang panlabas na input, maaaring magtayo ang mga designer ng katatagan. Kinikilala ng diskarteng ito na ang ilang pag-atake ay hindi maiiwasang makalusot, ngunit tinitiyak nito na ang kanilang potensyal para sa pinsala ay pinaliit. Ang prinsipyong ito ang sumusuporta sa isang matatag na hanay ng mga panlaban na inilalagay ng OpenAI.
| Prinsipyo ng Depensa | Deskripsyon | Analohiya sa mga Sistema ng Tao | Benepisyo |
|---|---|---|---|
| Pagtatakda ng Limitasyon | Paglilimita sa mga kakayahan at aksyon ng ahente sa paunang natukoy, ligtas na hangganan, pinipigilan ang hindi awtorisado o labis na malawak na operasyon. | Mga limitasyon sa paggastos, mga tier ng pahintulot, pagpapatupad ng patakaran para sa mga empleyado. | Pinapaliit ang posibleng pinsala kahit na bahagyang nakompromiso ang isang ahente. |
| Transparansya | Nangangailangan ng tahasang kumpirmasyon ng gumagamit para sa posibleng mapanganib o sensitibong aksyon bago ito isagawa. | Pag-apruba ng manager para sa mga pagbubukod, pagdoble-check ng kritikal na pagpasok ng data. | Nagbibigay kapangyarihan sa mga gumagamit na i-override o kumpirmahin ang mga sensitibong operasyon, tinitiyak ang kontrol. |
| Sandboxing | Paghihiwalay sa mga aksyon ng ahente, lalo na kapag nakikipag-ugnayan sa mga panlabas na tool o aplikasyon, sa loob ng isang secure, sinusubaybayan na kapaligiran. | Kontroladong pag-access sa mga sensitibong sistema, naka-segment na kapaligiran ng network. | Pinipigilan ang mga mapanirang aksyon na makaapekto sa mga pangunahing sistema o makalabas ng data. |
| Kontekstuwal na S&S | Pagsusuri ng mga pinagmulan ng input at mga labasan ng output para sa kahina-hinalang daloy ng data o hindi awtorisadong pagpapadala, pagtukoy ng mga pattern na nagpapahiwatig ng masamang hangarin. | Mga sistema ng Data Loss Prevention (DLP), mga protocol sa pagtukoy ng banta ng tagaloob. | Nakikita at hinaharangan ang mga hindi awtorisadong pagtatangka sa pagkuha ng data. |
| Pagsasanay sa Mapanirang Pag-atake | Patuloy na pagsasanay sa mga modelo ng AI upang makilala at labanan ang mapanlinlang na wika, mapanlinlang na taktika, at mga pagtatangka ng social engineering. | Pagsasanay sa kamalayan sa seguridad, pagkilala sa phishing at mga pagtatangka ng scam. | Pinapabuti ang likas na kakayahan ng ahente na makita at markahan ang mapanirang nilalaman. |
Mga Multi-Layered na Depensa ng OpenAI sa ChatGPT
Isinasama ng OpenAI ang modelong ito ng social engineering sa tradisyonal na mga pamamaraan ng security engineering, lalo na ang "source-sink analysis," sa loob ng ChatGPT. Sa balangkas na ito, kailangan ng isang umaatake ng dalawang pangunahing bahagi: isang "source" upang magpasok ng impluwensya (hal., hindi pinagkakatiwalaang panlabas na nilalaman) at isang "sink" upang pagsamantalahan ang isang mapanganib na kakayahan (hal., pagpapadala ng impormasyon, pagsunod sa isang mapanirang link, o pakikipag-ugnayan sa isang nakompromisong tool). Ang pangunahing layunin ng OpenAI ay panindigan ang isang pundamental na inaasahan sa seguridad: ang mga mapanganib na aksyon o ang pagpapadala ng sensitibong impormasyon ay hindi dapat mangyari nang tahimik o nang walang angkop na pananggalang.
Maraming pag-atake laban sa ChatGPT ang sumusubok na dayain ang assistant upang kunin ang lihim na impormasyon ng pag-uusap at ipasa ito sa isang mapanirang third party. Habang ang pagsasanay sa kaligtasan ng OpenAI ay madalas na humahantong sa ahente na tanggihan ang mga ganitong kahilingan, isang kritikal na estratehiya sa pagpapagaan para sa mga kaso kung saan ang ahente ay nakumbinsi ay ang Safe Url. Ang mekanismong ito ay partikular na idinisenyo upang makita kung kailan ang impormasyon na natutunan sa panahon ng isang pag-uusap ay maaaring ipasa sa isang panlabas na third-party na URL. Sa mga bihirang pagkakataong ito, ang sistema ay alinman sa ipinapakita ang impormasyon sa gumagamit para sa tahasang kumpirmasyon bago ipadala ito, o tuluyang hinaharangan ang pagpapadala, na nagtuturo sa ahente na humanap ng alternatibo, secure na paraan upang matugunan ang kahilingan ng gumagamit. Pinipigilan nito ang paglabas ng data kahit na ang ahente ay pansamantalang nakompromiso. Para sa karagdagang pananaw sa pagpapanatili ng kaligtasan laban sa mga interaksyon ng link na hinimok ng ahente, maaaring sumangguni ang mga gumagamit sa nakalaang blog post, Pagpapanatiling ligtas ng iyong data kapag ang isang ahente ng AI ay nag-click ng isang link.
Ang Papel ng Safe URL at Sandboxing sa Agentic AI
Ang mekanismo ng Safe Url, na idinisenyo para sa pagtukoy at pagkontrol sa pagpapadala ng sensitibong data, ay lumalawak ang saklaw ng proteksyon nito lampas sa simpleng pag-click ng link. Ang mga katulad na pananggalang ay inilalapat sa mga navigation at bookmark sa loob ng Atlas at sa mga function ng paghahanap at navigation sa Deep Research. Ang mga aplikasyong ito ay likas na nagsasangkot ng mga ahente ng AI na nakikipag-ugnayan sa malalawak na panlabas na pinagmulan ng data, na ginagawang napakahalaga ang matatag na kontrol para sa papalabas na data.
Higit pa rito, ang mga agentic feature tulad ng ChatGPT Canvas at ChatGPT Apps ay nagpatibay ng katulad na pilosopiya sa seguridad. Kapag ang mga ahente ay lumilikha at gumagamit ng mga functional na aplikasyon, ang mga operasyong ito ay nakakulong sa loob ng isang secure na kapaligiran ng sandbox. Ang sandboxing na ito ay nagbibigay-daan para sa pagtukoy ng mga hindi inaasahang komunikasyon o aksyon. Mahalaga, ang anumang potensyal na sensitibo o hindi awtorisadong interaksyon ay nagpapalitaw ng kahilingan para sa tahasang pahintulot ng gumagamit, na tinitiyak na ang mga gumagamit ay nagpapanatili ng sukdulang kontrol sa kanilang data at sa pag-uugali ng ahente. Ang multi-layered na diskarte na ito, na pinagsasama ang source-sink analysis na may kontekstuwal na kamalayan, pahintulot ng gumagamit, at sandboxed execution, ay bumubuo ng isang matatag na depensa laban sa umuunlad na prompt injection at mga pag-atake ng social engineering. Para sa higit pang detalye sa kung paano ginagawang operational nang ligtas ang mga agentic na kakayahan na ito, sumangguni sa mga talakayan sa pagpapatakbo ng agentic AI.
Pagpaplano sa Kinabukasan ng Mga Awtomatikong Ahente Laban sa Mga Pag-atake ng Kalaban
Ang pagtiyak ng ligtas na pakikipag-ugnayan sa mapanirang panlabas na mundo ay hindi lamang isang kanais-nais na tampok kundi isang kinakailangang pundasyon para sa pagbuo ng ganap na awtomatikong mga ahente ng AI. Ang rekomendasyon ng OpenAI para sa mga developer na naglalagay ng mga modelo ng AI sa kanilang mga aplikasyon ay isaalang-alang kung anong mga kontrol ang magkakaroon ang isang ahente ng tao sa isang katulad na mataas na pusta na sitwasyon at ipatupad ang mga katulad na limitasyon sa loob ng sistema ng AI.
Habang ang hangarin ay para sa mga pinakamatalinong modelo ng AI na sa huli ay labanan ang social engineering nang mas epektibo kaysa sa mga ahente ng tao, hindi ito laging isang posible o cost-effective na agarang layunin para sa bawat aplikasyon. Samakatuwid, ang pagdidisenyo ng mga sistema na may built-in na limitasyon at pangangasiwa ay nananatiling kritikal. Nakatuon ang OpenAI sa patuloy na pananaliksik sa mga implikasyon ng social engineering laban sa mga modelo ng AI at sa pagbuo ng mga advanced na depensa. Ang mga natuklasan na ito ay isinasama sa parehong kanilang mga arkitektura ng seguridad ng aplikasyon at sa patuloy na proseso ng pagsasanay para sa kanilang mga modelo ng AI, na tinitiyak ang isang proactive at adaptive na diskarte sa seguridad ng AI sa isang patuloy na umuunlad na landscape ng banta. Ang diskarte na ito na nakatuon sa hinaharap ay naglalayong gawing parehong makapangyarihan at likas na mapagkakatiwalaan ang mga ahente ng AI, na sumasalamin sa mga pagsisikap na mapabuti ang seguridad sa buong ekosistema ng AI, kabilang ang mga inisyatiba tulad ng paghadlang sa mapanirang paggamit ng AI.
Orihinal na pinagmulan
https://openai.com/index/designing-agents-to-resist-prompt-injection/Mga Karaniwang Tanong
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
Manatiling Updated
Kunin ang pinakabagong AI news sa iyong inbox.
