Agen AI: Melawan Injeksi Prompt dengan Rekayasa Sosial

Agen AI dengan cepat memperluas kemampuannya, mulai dari menjelajahi web hingga mengambil informasi kompleks dan menjalankan tindakan atas nama pengguna. Meskipun kemajuan ini menjanjikan utilitas dan efisiensi yang belum pernah terjadi sebelumnya, pada saat yang sama mereka memperkenalkan permukaan serangan baru yang canggih. Yang utama di antaranya adalah injeksi prompt—metode di mana instruksi berbahaya disematkan dalam konten eksternal, yang bertujuan untuk memanipulasi model AI agar melakukan tindakan yang tidak diinginkan. OpenAI menyoroti evolusi kritis dalam serangan ini: mereka semakin meniru taktik rekayasa sosial, yang membutuhkan pergeseran mendasar dalam strategi pertahanan dari penyaringan input sederhana menjadi desain sistemik yang kuat.

Ancaman yang Berkembang: Injeksi Prompt dan Rekayasa Sosial

Awalnya, serangan injeksi prompt seringkali lugas, seperti menyematkan perintah adversaria langsung dalam artikel Wikipedia yang mungkin diproses oleh agen AI. Model-model awal, yang kurang pengalaman waktu pelatihan di lingkungan adversaria semacam itu, cenderung mengikuti instruksi eksplisit ini tanpa pertanyaan. Namun, seiring dengan semakin matang dan canggihnya model AI, kerentanan mereka terhadap saran-saran terbuka tersebut telah berkurang. Hal ini telah mendorong penyerang untuk mengembangkan metode yang lebih bernuansa yang menggabungkan elemen rekayasa sosial.

Evolusi ini signifikan karena melampaui sekadar mengidentifikasi string berbahaya. Sebaliknya, ini menantang sistem AI untuk menolak konten yang menyesatkan atau manipulatif dalam konteks yang lebih luas, sama seperti manusia yang akan menghadapi rekayasa sosial. Misalnya, serangan injeksi prompt tahun 2025 yang dilaporkan ke OpenAI melibatkan pembuatan email yang tampak tidak berbahaya tetapi berisi instruksi tersemat yang dirancang untuk mengelabui asisten AI agar mengekstrak data karyawan sensitif dan menyerahkannya ke "sistem validasi kepatuhan." Serangan ini menunjukkan tingkat keberhasilan 50% dalam pengujian, menunjukkan efektivitas memadukan permintaan yang terdengar sah dengan arahan berbahaya. Serangan kompleks semacam itu seringkali melewati sistem "firewalling AI" tradisional, yang biasanya mencoba mengklasifikasikan input berdasarkan heuristik sederhana, karena mendeteksi manipulasi bernuansa ini menjadi sama sulitnya dengan membedakan kebohongan atau informasi yang salah tanpa konteks situasional yang lengkap.

Agen AI sebagai Rekan Manusia: Pelajaran dari Pertahanan Rekayasa Sosial

Untuk melawan teknik injeksi prompt tingkat lanjut ini, OpenAI telah mengadopsi pergeseran paradigma, melihat masalah melalui lensa rekayasa sosial manusia. Pendekatan ini mengakui bahwa tujuannya bukanlah identifikasi sempurna setiap input berbahaya, melainkan merancang agen AI dan sistem sehingga dampak manipulasi sangat dibatasi, bahkan jika serangan sebagian berhasil. Pola pikir ini analog dengan mengelola risiko rekayasa sosial untuk karyawan manusia dalam suatu organisasi.

Pertimbangkan agen layanan pelanggan manusia yang dipercayakan dengan kemampuan untuk mengeluarkan pengembalian dana atau kartu hadiah. Meskipun agen bertujuan untuk melayani pelanggan, mereka terus-menerus terpapar input eksternal—beberapa di antaranya mungkin manipulatif atau bahkan koersif. Organisasi memitigasi risiko ini dengan menerapkan aturan, batasan, dan sistem deterministik. Misalnya, agen layanan pelanggan mungkin memiliki batasan jumlah pengembalian dana yang dapat mereka keluarkan, atau prosedur khusus untuk menandai permintaan yang mencurigakan. Demikian pula, agen AI, saat beroperasi atas nama pengguna, harus memiliki batasan dan perlindungan bawaan. Dengan membayangkan agen AI dalam "sistem tiga aktor" ini (pengguna, agen, dunia eksternal), di mana agen harus menavigasi input eksternal yang berpotensi tidak bersahabat, desainer dapat membangun ketahanan. Pendekatan ini mengakui bahwa beberapa serangan pasti akan lolos, tetapi memastikan potensi bahayanya diminimalkan. Prinsip ini mendasari serangkaian tindakan penanggulangan yang kuat yang diterapkan oleh OpenAI.

Prinsip Pertahanan	Deskripsi	Analogi Sistem Manusia	Manfaat
Batasan	Membatasi kemampuan dan tindakan agen pada batas yang aman dan telah ditentukan, mencegah operasi yang tidak sah atau terlalu luas.	Batas pengeluaran, tingkatan otorisasi, penegakan kebijakan untuk karyawan.	Mengurangi potensi kerusakan bahkan jika agen sebagian dikompromikan.
Transparansi	Membutuhkan konfirmasi pengguna yang eksplisit untuk tindakan yang berpotensi berbahaya atau sensitif sebelum dieksekusi.	Persetujuan manajer untuk pengecualian, pemeriksaan ulang entri data penting.	Memberdayakan pengguna untuk menimpa atau mengonfirmasi operasi sensitif, memastikan kendali.
Sandboxing	Mengisolasi tindakan agen, terutama saat berinteraksi dengan alat atau aplikasi eksternal, dalam lingkungan yang aman dan dipantau.	Akses terkontrol ke sistem sensitif, lingkungan jaringan tersegmentasi.	Mencegah tindakan berbahaya memengaruhi sistem inti atau mengeksfiltrasi data.
S&S Kontekstual	Menganalisis sumber input dan sink output untuk aliran data yang mencurigakan atau transmisi yang tidak sah, mengidentifikasi pola yang menunjukkan niat jahat.	Sistem Pencegahan Kehilangan Data (DLP), protokol deteksi ancaman orang dalam.	Mengidentifikasi dan memblokir upaya eksfiltrasi data yang tidak sah.
Pelatihan Adversaria	Terus-menerus melatih model AI untuk mengenali dan menolak bahasa manipulatif, taktik menipu, dan upaya rekayasa sosial.	Pelatihan kesadaran keamanan, mengenali upaya phishing dan penipuan.	Meningkatkan kemampuan bawaan agen untuk mendeteksi dan menandai konten berbahaya.

Pertahanan Berlapis OpenAI di ChatGPT

OpenAI mengintegrasikan model rekayasa sosial ini dengan teknik rekayasa keamanan tradisional, khususnya "analisis sumber-sink," dalam ChatGPT. Dalam kerangka kerja ini, penyerang membutuhkan dua komponen kunci: "sumber" untuk menyuntikkan pengaruh (misalnya, konten eksternal yang tidak tepercaya) dan "sink" untuk mengeksploitasi kemampuan berbahaya (misalnya, mengirimkan informasi, mengikuti tautan berbahaya, atau berinteraksi dengan alat yang disusupi). Tujuan utama OpenAI adalah untuk menjunjung tinggi harapan keamanan fundamental: tindakan berbahaya atau transmisi informasi sensitif tidak boleh terjadi secara diam-diam atau tanpa perlindungan yang sesuai.

Banyak serangan terhadap ChatGPT mencoba mengelabui asisten agar mengekstrak informasi percakapan rahasia dan menyampaikannya ke pihak ketiga yang berbahaya. Meskipun pelatihan keamanan OpenAI seringkali membuat agen menolak permintaan semacam itu, strategi mitigasi kritis untuk kasus di mana agen teryakinkan adalah URL Aman. Mekanisme ini dirancang khusus untuk mendeteksi ketika informasi yang dipelajari selama percakapan mungkin ditransmisikan ke "URL pihak ketiga eksternal." Dalam kasus yang jarang terjadi, sistem akan menampilkan informasi tersebut kepada pengguna untuk konfirmasi eksplisit atau memblokir transmisi sepenuhnya, meminta agen untuk menemukan cara alternatif yang aman untuk memenuhi permintaan pengguna. Ini mencegah eksfiltrasi data bahkan jika agen sementara dikompromikan. Untuk wawasan lebih lanjut tentang perlindungan terhadap interaksi tautan yang didorong agen, pengguna dapat merujuk ke postingan blog khusus, Menjaga data Anda tetap aman saat agen AI mengeklik tautan.

Peran URL Aman dan Sandboxing dalam AI Agen

Mekanisme URL Aman, yang dirancang untuk mendeteksi dan mengendalikan transmisi data sensitif, memperluas jangkauan perlindungannya melampaui sekadar klik tautan. Perlindungan serupa diterapkan pada navigasi dan bookmark dalam Atlas serta fungsi pencarian dan navigasi di Deep Research. Aplikasi-aplikasi ini secara inheren melibatkan agen AI yang berinteraksi dengan sumber data eksternal yang luas, membuat kontrol yang kuat untuk data keluar menjadi sangat penting.

Selain itu, fitur-fitur agen seperti ChatGPT Canvas dan ChatGPT Apps mengadopsi filosofi keamanan yang serupa. Ketika agen membuat dan memanfaatkan aplikasi fungsional, operasi ini dibatasi dalam lingkungan sandbox yang aman. Sandboxing ini memungkinkan deteksi komunikasi atau tindakan yang tidak terduga. Yang terpenting, setiap interaksi yang berpotensi sensitif atau tidak sah akan memicu permintaan persetujuan pengguna yang eksplisit, memastikan bahwa pengguna mempertahankan kendali penuh atas data mereka dan perilaku agen. Pendekatan berlapis ini, menggabungkan analisis sumber-sink dengan kesadaran kontekstual, persetujuan pengguna, dan eksekusi dalam sandbox, membentuk pertahanan yang kuat terhadap serangan injeksi prompt dan rekayasa sosial yang terus berkembang. Untuk detail lebih lanjut tentang bagaimana kemampuan agen ini dioperasikan secara aman, lihat diskusi tentang mengoperasionalkan AI agen.

Perlindungan Masa Depan Agen Otonom Terhadap Serangan Adversaria

Memastikan interaksi yang aman dengan dunia luar yang adversarial bukan hanya fitur yang diinginkan tetapi fondasi yang diperlukan untuk pengembangan agen AI yang sepenuhnya otonom. Rekomendasi OpenAI bagi pengembang yang mengintegrasikan model AI ke dalam aplikasi mereka adalah untuk mempertimbangkan kontrol apa yang akan dimiliki agen manusia dalam situasi berisiko tinggi yang serupa dan untuk menerapkan batasan analog tersebut dalam sistem AI.

Meskipun aspirasinya adalah agar model AI yang sangat cerdas pada akhirnya dapat menahan rekayasa sosial lebih efektif daripada agen manusia, hal ini tidak selalu menjadi tujuan langsung yang layak atau hemat biaya untuk setiap aplikasi. Oleh karena itu, merancang sistem dengan batasan dan pengawasan bawaan tetap krusial. OpenAI berkomitmen untuk terus meneliti implikasi rekayasa sosial terhadap model AI dan mengembangkan pertahanan canggih. Temuan-temuan ini diintegrasikan ke dalam arsitektur keamanan aplikasi mereka dan proses pelatihan berkelanjutan untuk model AI mereka, memastikan pendekatan yang proaktif dan adaptif terhadap keamanan AI dalam lanskap ancaman yang terus berkembang. Strategi berpandangan ke depan ini bertujuan untuk membuat agen AI menjadi kuat dan secara inheren dapat dipercaya, menggemakan upaya untuk meningkatkan keamanan di seluruh ekosistem AI, termasuk inisiatif seperti mengganggu penggunaan AI berbahaya.

Sumber asli

https://openai.com/index/designing-agents-to-resist-prompt-injection/

Pertanyaan yang Sering Diajukan

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.