Ejen AI sedang pesat mengembangkan keupayaan mereka, daripada melayari web kepada mendapatkan maklumat kompleks dan melaksanakan tindakan bagi pihak pengguna. Walaupun kemajuan ini menjanjikan utiliti dan kecekapan yang belum pernah terjadi, ia juga secara serentak memperkenalkan permukaan serangan baharu yang canggih. Yang utama di antaranya ialah suntikan prompt—kaedah di mana arahan berniat jahat disematkan dalam kandungan luaran, bertujuan untuk memanipulasi model AI agar melakukan tindakan yang tidak diingini. OpenAI menyerlahkan evolusi kritikal dalam serangan ini: ia semakin meniru taktik kejuruteraan sosial, memerlukan anjakan asas dalam strategi pertahanan daripada penapisan input mudah kepada reka bentuk sistemik yang mantap.
Ancaman Berkembang: Suntikan Prompt dan Kejuruteraan Sosial
Pada mulanya, serangan suntikan prompt sering kali mudah, seperti menyematkan arahan bermusuhan langsung dalam artikel Wikipedia yang mungkin diproses oleh ejen AI. Model awal, yang tidak mempunyai pengalaman latihan dalam persekitaran bermusuhan sedemikian, terdedah untuk mengikut arahan eksplisit ini tanpa soal. Walau bagaimanapun, apabila model AI telah matang dan menjadi lebih canggih, kelemahan mereka terhadap cadangan yang jelas seperti itu telah berkurangan. Ini telah mendorong penyerang untuk membangunkan kaedah yang lebih bernuansa yang menggabungkan elemen kejuruteraan sosial.
Evolusi ini penting kerana ia melangkaui sekadar mengenal pasti rentetan berniat jahat. Sebaliknya, ia mencabar sistem AI untuk menentang kandungan yang mengelirukan atau manipulatif dalam konteks yang lebih luas, sama seperti manusia akan menghadapi kejuruteraan sosial. Sebagai contoh, serangan suntikan prompt 2025 yang dilaporkan kepada OpenAI melibatkan penciptaan e-mel yang kelihatan tidak berbahaya tetapi mengandungi arahan tersemat yang direka untuk menipu pembantu AI agar mengekstrak data pekerja sensitif dan menyerahkannya kepada "sistem pengesahan pematuhan". Serangan ini menunjukkan kadar kejayaan 50% dalam ujian, mempamerkan keberkesanan menggabungkan permintaan yang kedengaran sah dengan arahan berniat jahat. Serangan kompleks sedemikian sering memintas sistem "AI firewalling" tradisional, yang biasanya cuba mengklasifikasikan input berdasarkan heuristik mudah, kerana mengesan manipulasi bernuansa ini menjadi sesukar membezakan pembohongan atau maklumat salah tanpa konteks situasi penuh.
Ejen AI sebagai Rakan Kongsi Manusia: Pelajaran daripada Pertahanan Kejuruteraan Sosial
Untuk menentang teknik suntikan prompt lanjutan ini, OpenAI telah mengadaptasi anjakan paradigma, melihat masalah melalui lensa kejuruteraan sosial manusia. Pendekatan ini mengiktiraf bahawa matlamatnya bukanlah pengecaman sempurna setiap input berniat jahat, tetapi sebaliknya mereka bentuk ejen AI dan sistem supaya impak manipulasi dikekang dengan teruk, walaupun serangan berjaya sebahagiannya. Pemikiran ini adalah analog dengan menguruskan risiko kejuruteraan sosial untuk pekerja manusia dalam sesebuah organisasi.
Pertimbangkan seorang ejen perkhidmatan pelanggan manusia yang diamanahkan dengan keupayaan untuk mengeluarkan bayaran balik atau kad hadiah. Walaupun ejen itu bertujuan untuk melayani pelanggan, mereka terus-menerus terdedah kepada input luaran—sesetengahnya mungkin manipulatif atau bahkan memaksa. Organisasi mengurangkan risiko ini dengan melaksanakan peraturan, batasan, dan sistem deterministik. Sebagai contoh, ejen perkhidmatan pelanggan mungkin mempunyai had pada bilangan bayaran balik yang boleh mereka keluarkan, atau prosedur khusus untuk menandakan permintaan yang mencurigakan. Begitu juga, ejen AI, semasa beroperasi bagi pihak pengguna, mesti mempunyai batasan dan perlindungan yang wujud. Dengan membayangkan ejen AI dalam "sistem tiga-pelaku" ini (pengguna, ejen, dunia luaran), di mana ejen mesti menavigasi input luaran yang berpotensi bermusuhan, pereka boleh membina daya tahan. Pendekatan ini mengiktiraf bahawa beberapa serangan tidak dapat dielakkan akan terlepas, tetapi memastikan potensi bahaya mereka diminimumkan. Prinsip ini mendasari rangkaian langkah balas yang mantap yang digunakan oleh OpenAI.
| Prinsip Pertahanan | Penerangan | Analogi kepada Sistem Manusia | Faedah |
|---|---|---|---|
| Kekangan | Mengehadkan keupayaan dan tindakan ejen kepada batasan yang selamat dan telah ditetapkan, mencegah operasi yang tidak dibenarkan atau terlalu luas. | Had perbelanjaan, peringkat kebenaran, penguatkuasaan dasar untuk pekerja. | Mengurangkan potensi kerosakan walaupun ejen terjejas sebahagiannya. |
| Ketelusan | Memerlukan pengesahan pengguna yang jelas untuk tindakan yang berpotensi berbahaya atau sensitif sebelum ia dilaksanakan. | Kelulusan pengurus untuk pengecualian, semakan semula kemasukan data kritikal. | Memberi kuasa kepada pengguna untuk mengatasi atau mengesahkan operasi sensitif, memastikan kawalan. |
| Penyandaran (Sandboxing) | Mengasingkan tindakan ejen, terutamanya apabila berinteraksi dengan alatan atau aplikasi luaran, dalam persekitaran yang selamat dan dipantau. | Akses terkawal kepada sistem sensitif, persekitaran rangkaian yang tersegmentasi. | Mencegah tindakan berniat jahat daripada menjejaskan sistem teras atau mengeksfiltrasi data. |
| S&S Berkonteks | Menganalisis sumber input dan sink output untuk aliran data yang mencurigakan atau penghantaran tanpa kebenaran, mengenal pasti corak yang menunjukkan niat jahat. | Sistem Pencegahan Kehilangan Data (DLP), protokol pengesanan ancaman orang dalam. | Mengenal pasti dan menyekat cubaan eksfiltrasi data tanpa kebenaran. |
| Latihan Adversarial | Melatih model AI secara berterusan untuk mengenali dan menentang bahasa manipulatif, taktik penipuan, dan cubaan kejuruteraan sosial. | Latihan kesedaran keselamatan, mengenali cubaan pancingan data dan penipuan. | Meningkatkan keupayaan intrinsik ejen untuk mengesan dan menandakan kandungan berniat jahat. |
Pertahanan Berlapis-lapis OpenAI dalam ChatGPT
OpenAI mengintegrasikan model kejuruteraan sosial ini dengan teknik kejuruteraan keselamatan tradisional, terutamanya "analisis sumber-sink," dalam ChatGPT. Dalam kerangka ini, penyerang memerlukan dua komponen utama: "sumber" untuk menyuntik pengaruh (cth., kandungan luaran yang tidak dipercayai) dan "sink" untuk mengeksploitasi keupayaan berbahaya (cth., menghantar maklumat, mengikuti pautan berniat jahat, atau berinteraksi dengan alat yang terjejas). Objektif utama OpenAI adalah untuk menegakkan jangkaan keselamatan asas: tindakan berbahaya atau penghantaran maklumat sensitif tidak sepatutnya berlaku secara senyap atau tanpa perlindungan yang sewajarnya.
Banyak serangan terhadap ChatGPT cuba menipu pembantu untuk mengekstrak maklumat perbualan rahsia dan menyampaikannya kepada pihak ketiga yang berniat jahat. Walaupun latihan keselamatan OpenAI sering kali menyebabkan ejen menolak permintaan sedemikian, strategi mitigasi kritikal untuk kes di mana ejen terpedaya ialah URL Selamat. Mekanisme ini direka khusus untuk mengesan apabila maklumat yang dipelajari semasa perbualan mungkin dihantar ke URL pihak ketiga luaran. Dalam keadaan yang jarang berlaku, sistem sama ada memaparkan maklumat kepada pengguna untuk pengesahan eksplisit atau menyekat penghantaran sepenuhnya, mendorong ejen untuk mencari cara alternatif yang selamat untuk memenuhi permintaan pengguna. Ini mencegah eksfiltrasi data walaupun ejen terjejas seketika. Untuk pandangan lanjut tentang perlindungan terhadap interaksi pautan yang didorong ejen, pengguna boleh merujuk kepada catatan blog khusus, Menjaga keselamatan data anda apabila ejen AI mengklik pautan.
Peranan URL Selamat dan Penyandaran dalam AI Beragensi
Mekanisme URL Selamat, yang direka untuk mengesan dan mengawal penghantaran data sensitif, meluaskan jangkauan perlindungannya melangkaui klik pautan semata-mata. Perlindungan serupa juga diterapkan pada navigasi dan penanda buku dalam Atlas serta kepada fungsi carian dan navigasi dalam Deep Research. Aplikasi ini secara intrinsik melibatkan ejen AI yang berinteraksi dengan sumber data luaran yang luas, menjadikan kawalan mantap untuk data keluar sangat penting.
Tambahan pula, ciri-ciri beragensi seperti ChatGPT Canvas dan Aplikasi ChatGPT mengamalkan falsafah keselamatan yang serupa. Apabila ejen mencipta dan menggunakan aplikasi berfungsi, operasi ini terkunci dalam persekitaran kotak pasir (sandbox) yang selamat. Penyandaran (sandboxing) ini membolehkan pengesanan komunikasi atau tindakan yang tidak dijangka. Yang penting, sebarang interaksi yang berpotensi sensitif atau tidak dibenarkan mencetuskan permintaan untuk persetujuan pengguna yang jelas, memastikan pengguna mengekalkan kawalan mutlak ke atas data mereka dan tingkah laku ejen. Pendekatan berlapis-lapis ini, menggabungkan analisis sumber-sink dengan kesedaran kontekstual, persetujuan pengguna, dan pelaksanaan kotak pasir, membentuk pertahanan yang mantap terhadap serangan suntikan prompt dan kejuruteraan sosial yang berkembang. Untuk butiran lanjut tentang bagaimana keupayaan beragensi ini sedang dioperasikan dengan selamat, rujuk perbincangan mengenai mengoperasikan AI beragensi.
Memastikan Ejen Autonomi Kalis Masa Depan Terhadap Serangan Adversarial
Memastikan interaksi yang selamat dengan dunia luaran yang bermusuhan bukan sahaja ciri yang diingini tetapi asas yang diperlukan untuk pembangunan ejen AI yang sepenuhnya autonomi. Saranan OpenAI untuk pembangun yang mengintegrasikan model AI ke dalam aplikasi mereka adalah untuk mempertimbangkan kawalan yang akan dimiliki oleh ejen manusia dalam situasi berisiko tinggi yang serupa dan untuk melaksanakan batasan analog tersebut dalam sistem AI.
Walaupun aspirasinya adalah agar model AI yang paling cerdas akhirnya menentang kejuruteraan sosial dengan lebih berkesan daripada ejen manusia, ini tidak selalu menjadi matlamat segera yang boleh dilaksanakan atau kos efektif untuk setiap aplikasi. Oleh itu, mereka bentuk sistem dengan kekangan dan pengawasan terbina dalam kekal kritikal. OpenAI komited untuk terus menyelidik implikasi kejuruteraan sosial terhadap model AI dan membangunkan pertahanan lanjutan. Penemuan ini diintegrasikan ke dalam kedua-dua seni bina keselamatan aplikasi mereka dan proses latihan berterusan untuk model AI mereka, memastikan pendekatan yang proaktif dan adaptif terhadap keselamatan AI dalam landskap ancaman yang sentiasa berkembang. Strategi berpandangan ke hadapan ini bertujuan untuk menjadikan ejen AI berkuasa dan sememangnya boleh dipercayai, mengulangi usaha untuk meningkatkan keselamatan merentasi ekosistem AI, termasuk inisiatif seperti mengganggu penggunaan AI yang berniat jahat.
Soalan Lazim
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
Kekal Dikemas Kini
Dapatkan berita AI terkini dalam peti masuk anda.
