Ejen AI: Menentang Suntikan Prompt dengan Kejuruteraan Sosial

Ejen AI sedang pesat mengembangkan keupayaan mereka, daripada melayari web kepada mendapatkan maklumat kompleks dan melaksanakan tindakan bagi pihak pengguna. Walaupun kemajuan ini menjanjikan utiliti dan kecekapan yang belum pernah terjadi, ia juga secara serentak memperkenalkan permukaan serangan baharu yang canggih. Yang utama di antaranya ialah suntikan prompt—kaedah di mana arahan berniat jahat disematkan dalam kandungan luaran, bertujuan untuk memanipulasi model AI agar melakukan tindakan yang tidak diingini. OpenAI menyerlahkan evolusi kritikal dalam serangan ini: ia semakin meniru taktik kejuruteraan sosial, memerlukan anjakan asas dalam strategi pertahanan daripada penapisan input mudah kepada reka bentuk sistemik yang mantap.

Ancaman Berkembang: Suntikan Prompt dan Kejuruteraan Sosial

Pada mulanya, serangan suntikan prompt sering kali mudah, seperti menyematkan arahan bermusuhan langsung dalam artikel Wikipedia yang mungkin diproses oleh ejen AI. Model awal, yang tidak mempunyai pengalaman latihan dalam persekitaran bermusuhan sedemikian, terdedah untuk mengikut arahan eksplisit ini tanpa soal. Walau bagaimanapun, apabila model AI telah matang dan menjadi lebih canggih, kelemahan mereka terhadap cadangan yang jelas seperti itu telah berkurangan. Ini telah mendorong penyerang untuk membangunkan kaedah yang lebih bernuansa yang menggabungkan elemen kejuruteraan sosial.

Evolusi ini penting kerana ia melangkaui sekadar mengenal pasti rentetan berniat jahat. Sebaliknya, ia mencabar sistem AI untuk menentang kandungan yang mengelirukan atau manipulatif dalam konteks yang lebih luas, sama seperti manusia akan menghadapi kejuruteraan sosial. Sebagai contoh, serangan suntikan prompt 2025 yang dilaporkan kepada OpenAI melibatkan penciptaan e-mel yang kelihatan tidak berbahaya tetapi mengandungi arahan tersemat yang direka untuk menipu pembantu AI agar mengekstrak data pekerja sensitif dan menyerahkannya kepada "sistem pengesahan pematuhan". Serangan ini menunjukkan kadar kejayaan 50% dalam ujian, mempamerkan keberkesanan menggabungkan permintaan yang kedengaran sah dengan arahan berniat jahat. Serangan kompleks sedemikian sering memintas sistem "AI firewalling" tradisional, yang biasanya cuba mengklasifikasikan input berdasarkan heuristik mudah, kerana mengesan manipulasi bernuansa ini menjadi sesukar membezakan pembohongan atau maklumat salah tanpa konteks situasi penuh.

Ejen AI sebagai Rakan Kongsi Manusia: Pelajaran daripada Pertahanan Kejuruteraan Sosial

Untuk menentang teknik suntikan prompt lanjutan ini, OpenAI telah mengadaptasi anjakan paradigma, melihat masalah melalui lensa kejuruteraan sosial manusia. Pendekatan ini mengiktiraf bahawa matlamatnya bukanlah pengecaman sempurna setiap input berniat jahat, tetapi sebaliknya mereka bentuk ejen AI dan sistem supaya impak manipulasi dikekang dengan teruk, walaupun serangan berjaya sebahagiannya. Pemikiran ini adalah analog dengan menguruskan risiko kejuruteraan sosial untuk pekerja manusia dalam sesebuah organisasi.

Pertimbangkan seorang ejen perkhidmatan pelanggan manusia yang diamanahkan dengan keupayaan untuk mengeluarkan bayaran balik atau kad hadiah. Walaupun ejen itu bertujuan untuk melayani pelanggan, mereka terus-menerus terdedah kepada input luaran—sesetengahnya mungkin manipulatif atau bahkan memaksa. Organisasi mengurangkan risiko ini dengan melaksanakan peraturan, batasan, dan sistem deterministik. Sebagai contoh, ejen perkhidmatan pelanggan mungkin mempunyai had pada bilangan bayaran balik yang boleh mereka keluarkan, atau prosedur khusus untuk menandakan permintaan yang mencurigakan. Begitu juga, ejen AI, semasa beroperasi bagi pihak pengguna, mesti mempunyai batasan dan perlindungan yang wujud. Dengan membayangkan ejen AI dalam "sistem tiga-pelaku" ini (pengguna, ejen, dunia luaran), di mana ejen mesti menavigasi input luaran yang berpotensi bermusuhan, pereka boleh membina daya tahan. Pendekatan ini mengiktiraf bahawa beberapa serangan tidak dapat dielakkan akan terlepas, tetapi memastikan potensi bahaya mereka diminimumkan. Prinsip ini mendasari rangkaian langkah balas yang mantap yang digunakan oleh OpenAI.

Prinsip Pertahanan	Penerangan	Analogi kepada Sistem Manusia	Faedah
Kekangan	Mengehadkan keupayaan dan tindakan ejen kepada batasan yang selamat dan telah ditetapkan, mencegah operasi yang tidak dibenarkan atau terlalu luas.	Had perbelanjaan, peringkat kebenaran, penguatkuasaan dasar untuk pekerja.	Mengurangkan potensi kerosakan walaupun ejen terjejas sebahagiannya.
Ketelusan	Memerlukan pengesahan pengguna yang jelas untuk tindakan yang berpotensi berbahaya atau sensitif sebelum ia dilaksanakan.	Kelulusan pengurus untuk pengecualian, semakan semula kemasukan data kritikal.	Memberi kuasa kepada pengguna untuk mengatasi atau mengesahkan operasi sensitif, memastikan kawalan.
Penyandaran (Sandboxing)	Mengasingkan tindakan ejen, terutamanya apabila berinteraksi dengan alatan atau aplikasi luaran, dalam persekitaran yang selamat dan dipantau.	Akses terkawal kepada sistem sensitif, persekitaran rangkaian yang tersegmentasi.	Mencegah tindakan berniat jahat daripada menjejaskan sistem teras atau mengeksfiltrasi data.
S&S Berkonteks	Menganalisis sumber input dan sink output untuk aliran data yang mencurigakan atau penghantaran tanpa kebenaran, mengenal pasti corak yang menunjukkan niat jahat.	Sistem Pencegahan Kehilangan Data (DLP), protokol pengesanan ancaman orang dalam.	Mengenal pasti dan menyekat cubaan eksfiltrasi data tanpa kebenaran.
Latihan Adversarial	Melatih model AI secara berterusan untuk mengenali dan menentang bahasa manipulatif, taktik penipuan, dan cubaan kejuruteraan sosial.	Latihan kesedaran keselamatan, mengenali cubaan pancingan data dan penipuan.	Meningkatkan keupayaan intrinsik ejen untuk mengesan dan menandakan kandungan berniat jahat.

Pertahanan Berlapis-lapis OpenAI dalam ChatGPT

OpenAI mengintegrasikan model kejuruteraan sosial ini dengan teknik kejuruteraan keselamatan tradisional, terutamanya "analisis sumber-sink," dalam ChatGPT. Dalam kerangka ini, penyerang memerlukan dua komponen utama: "sumber" untuk menyuntik pengaruh (cth., kandungan luaran yang tidak dipercayai) dan "sink" untuk mengeksploitasi keupayaan berbahaya (cth., menghantar maklumat, mengikuti pautan berniat jahat, atau berinteraksi dengan alat yang terjejas). Objektif utama OpenAI adalah untuk menegakkan jangkaan keselamatan asas: tindakan berbahaya atau penghantaran maklumat sensitif tidak sepatutnya berlaku secara senyap atau tanpa perlindungan yang sewajarnya.

Banyak serangan terhadap ChatGPT cuba menipu pembantu untuk mengekstrak maklumat perbualan rahsia dan menyampaikannya kepada pihak ketiga yang berniat jahat. Walaupun latihan keselamatan OpenAI sering kali menyebabkan ejen menolak permintaan sedemikian, strategi mitigasi kritikal untuk kes di mana ejen terpedaya ialah URL Selamat. Mekanisme ini direka khusus untuk mengesan apabila maklumat yang dipelajari semasa perbualan mungkin dihantar ke URL pihak ketiga luaran. Dalam keadaan yang jarang berlaku, sistem sama ada memaparkan maklumat kepada pengguna untuk pengesahan eksplisit atau menyekat penghantaran sepenuhnya, mendorong ejen untuk mencari cara alternatif yang selamat untuk memenuhi permintaan pengguna. Ini mencegah eksfiltrasi data walaupun ejen terjejas seketika. Untuk pandangan lanjut tentang perlindungan terhadap interaksi pautan yang didorong ejen, pengguna boleh merujuk kepada catatan blog khusus, Menjaga keselamatan data anda apabila ejen AI mengklik pautan.

Peranan URL Selamat dan Penyandaran dalam AI Beragensi

Mekanisme URL Selamat, yang direka untuk mengesan dan mengawal penghantaran data sensitif, meluaskan jangkauan perlindungannya melangkaui klik pautan semata-mata. Perlindungan serupa juga diterapkan pada navigasi dan penanda buku dalam Atlas serta kepada fungsi carian dan navigasi dalam Deep Research. Aplikasi ini secara intrinsik melibatkan ejen AI yang berinteraksi dengan sumber data luaran yang luas, menjadikan kawalan mantap untuk data keluar sangat penting.

Tambahan pula, ciri-ciri beragensi seperti ChatGPT Canvas dan Aplikasi ChatGPT mengamalkan falsafah keselamatan yang serupa. Apabila ejen mencipta dan menggunakan aplikasi berfungsi, operasi ini terkunci dalam persekitaran kotak pasir (sandbox) yang selamat. Penyandaran (sandboxing) ini membolehkan pengesanan komunikasi atau tindakan yang tidak dijangka. Yang penting, sebarang interaksi yang berpotensi sensitif atau tidak dibenarkan mencetuskan permintaan untuk persetujuan pengguna yang jelas, memastikan pengguna mengekalkan kawalan mutlak ke atas data mereka dan tingkah laku ejen. Pendekatan berlapis-lapis ini, menggabungkan analisis sumber-sink dengan kesedaran kontekstual, persetujuan pengguna, dan pelaksanaan kotak pasir, membentuk pertahanan yang mantap terhadap serangan suntikan prompt dan kejuruteraan sosial yang berkembang. Untuk butiran lanjut tentang bagaimana keupayaan beragensi ini sedang dioperasikan dengan selamat, rujuk perbincangan mengenai mengoperasikan AI beragensi.

Memastikan Ejen Autonomi Kalis Masa Depan Terhadap Serangan Adversarial

Memastikan interaksi yang selamat dengan dunia luaran yang bermusuhan bukan sahaja ciri yang diingini tetapi asas yang diperlukan untuk pembangunan ejen AI yang sepenuhnya autonomi. Saranan OpenAI untuk pembangun yang mengintegrasikan model AI ke dalam aplikasi mereka adalah untuk mempertimbangkan kawalan yang akan dimiliki oleh ejen manusia dalam situasi berisiko tinggi yang serupa dan untuk melaksanakan batasan analog tersebut dalam sistem AI.

Walaupun aspirasinya adalah agar model AI yang paling cerdas akhirnya menentang kejuruteraan sosial dengan lebih berkesan daripada ejen manusia, ini tidak selalu menjadi matlamat segera yang boleh dilaksanakan atau kos efektif untuk setiap aplikasi. Oleh itu, mereka bentuk sistem dengan kekangan dan pengawasan terbina dalam kekal kritikal. OpenAI komited untuk terus menyelidik implikasi kejuruteraan sosial terhadap model AI dan membangunkan pertahanan lanjutan. Penemuan ini diintegrasikan ke dalam kedua-dua seni bina keselamatan aplikasi mereka dan proses latihan berterusan untuk model AI mereka, memastikan pendekatan yang proaktif dan adaptif terhadap keselamatan AI dalam landskap ancaman yang sentiasa berkembang. Strategi berpandangan ke hadapan ini bertujuan untuk menjadikan ejen AI berkuasa dan sememangnya boleh dipercayai, mengulangi usaha untuk meningkatkan keselamatan merentasi ekosistem AI, termasuk inisiatif seperti mengganggu penggunaan AI yang berniat jahat.

Sumber asal

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Soalan Lazim

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Kekal Dikemas Kini

Dapatkan berita AI terkini dalam peti masuk anda.

Kongsi