एआई एजेंट वेब ब्राउज़ करने से लेकर जटिल जानकारी प्राप्त करने और उपयोगकर्ताओं की ओर से कार्य निष्पादित करने तक, अपनी क्षमताओं का तेजी से विस्तार कर रहे हैं। जबकि ये प्रगति अभूतपूर्व उपयोगिता और दक्षता का वादा करती हैं, वे साथ ही नए, परिष्कृत हमले के क्षेत्र भी पेश करती हैं। इनमें से प्रमुख है प्रॉम्प्ट इंजेक्शन—एक ऐसी विधि जहाँ दुर्भावनापूर्ण निर्देश बाहरी सामग्री में अंतर्निहित होते हैं, जिसका उद्देश्य एआई मॉडल को अनपेक्षित क्रियाएँ करने के लिए हेरफेर करना है। OpenAI इन हमलों में एक महत्वपूर्ण विकास को उजागर करता है: वे तेजी से सोशल इंजीनियरिंग युक्तियों की नकल कर रहे हैं, जिसके लिए रक्षा रणनीतियों में साधारण इनपुट फ़िल्टरिंग से लेकर मजबूत प्रणालीगत डिजाइन तक एक मौलिक बदलाव की आवश्यकता है।
विकसित होता खतरा: प्रॉम्प्ट इंजेक्शन और सोशल इंजीनियरिंग
शुरुआत में, प्रॉम्प्ट इंजेक्शन हमले अक्सर सीधे होते थे, जैसे कि विकिपीडिया लेख में सीधे विरोधी आदेशों को एम्बेड करना जिसे एक एआई एजेंट संसाधित कर सकता है। शुरुआती मॉडल, ऐसे विरोधी वातावरण में प्रशिक्षण-समय के अनुभव की कमी के कारण, इन स्पष्ट निर्देशों का बिना किसी सवाल के पालन करने के लिए प्रवृत्त थे। हालाँकि, जैसे-जैसे एआई मॉडल परिपक्व हुए और अधिक परिष्कृत हुए, ऐसे स्पष्ट सुझावों के प्रति उनकी भेद्यता कम हो गई। इसने हमलावरों को सोशल इंजीनियरिंग के तत्वों को शामिल करने वाली अधिक सूक्ष्म विधियों को विकसित करने के लिए प्रेरित किया है।
यह विकास महत्वपूर्ण है क्योंकि यह केवल एक दुर्भावनापूर्ण स्ट्रिंग की पहचान करने से आगे बढ़ता है। इसके बजाय, यह एआई प्रणालियों को एक व्यापक संदर्भ में भ्रामक या हेरफेर वाली सामग्री का विरोध करने की चुनौती देता है, ठीक वैसे ही जैसे एक इंसान को सोशल इंजीनियरिंग का सामना करना पड़ता है। उदाहरण के लिए, OpenAI को 2025 में रिपोर्ट किए गए एक प्रॉम्प्ट इंजेक्शन हमले में एक ईमेल तैयार करना शामिल था जो हानिरहित लग रहा था लेकिन इसमें अंतर्निहित निर्देश थे जो एक एआई सहायक को संवेदनशील कर्मचारी डेटा निकालने और उसे एक 'अनुपालन सत्यापन प्रणाली' में जमा करने के लिए धोखा देने के लिए डिज़ाइन किए गए थे। इस हमले ने परीक्षण में 50% सफलता दर का प्रदर्शन किया, जिसमें दुर्भावनापूर्ण निर्देशों के साथ वैध-लगने वाले अनुरोधों को मिलाने की प्रभावशीलता दिखाई गई। ऐसे जटिल हमले अक्सर पारंपरिक 'एआई फ़ायरवॉलिंग' प्रणालियों को बायपास कर देते हैं, जो आमतौर पर साधारण अनुमानी के आधार पर इनपुट को वर्गीकृत करने का प्रयास करते हैं, क्योंकि इन सूक्ष्म हेरफेरों का पता लगाना पूर्ण स्थितिजन्य संदर्भ के बिना झूठ या गलत सूचना को पहचानने जितना मुश्किल हो जाता है।
मानव समकक्षों के रूप में एआई एजेंट: सोशल इंजीनियरिंग सुरक्षा से सबक
इन उन्नत प्रॉम्प्ट इंजेक्शन तकनीकों का मुकाबला करने के लिए, OpenAI ने एक प्रतिमान बदलाव अपनाया है, समस्या को मानवीय सोशल इंजीनियरिंग के दृष्टिकोण से देखते हुए। यह दृष्टिकोण मानता है कि लक्ष्य हर दुर्भावनापूर्ण इनपुट की सटीक पहचान करना नहीं है, बल्कि एआई एजेंटों और प्रणालियों को इस तरह से डिज़ाइन करना है कि हेरफेर का प्रभाव गंभीर रूप से सीमित हो जाए, भले ही हमला आंशिक रूप से सफल हो। यह मानसिकता किसी संगठन के भीतर मानव कर्मचारियों के लिए सोशल इंजीनियरिंग जोखिमों के प्रबंधन के समान है।
एक ऐसे मानव ग्राहक सेवा एजेंट पर विचार करें जिसे रिफंड या उपहार कार्ड जारी करने की क्षमता सौंपी गई है। जबकि एजेंट का उद्देश्य ग्राहक की सेवा करना है, वे लगातार बाहरी इनपुट के संपर्क में रहते हैं—जिनमें से कुछ हेरफेर वाले या ज़बरदस्ती वाले भी हो सकते हैं। संगठन नियमों, सीमाओं और नियतात्मक प्रणालियों को लागू करके इस जोखिम को कम करते हैं। उदाहरण के लिए, एक ग्राहक सेवा एजेंट के पास जारी किए जा सकने वाले रिफंड की संख्या पर एक सीमा हो सकती है, या संदिग्ध अनुरोधों को चिह्नित करने के लिए विशिष्ट प्रक्रियाएं हो सकती हैं। इसी तरह, एक एआई एजेंट, जबकि एक उपयोगकर्ता की ओर से काम कर रहा है, उसमें अंतर्निहित सीमाएं और सुरक्षा उपाय होने चाहिए। इस 'तीन-अभिनेता प्रणाली' (उपयोगकर्ता, एजेंट, बाहरी दुनिया) के भीतर एआई एजेंटों की कल्पना करके, जहाँ एजेंट को संभावित शत्रुतापूर्ण बाहरी इनपुट को नेविगेट करना होता है, डिजाइनर लचीलापन बना सकते हैं। यह दृष्टिकोण स्वीकार करता है कि कुछ हमले अनिवार्य रूप से सफल हो जाएंगे, लेकिन यह सुनिश्चित करता है कि उनके नुकसान की क्षमता कम से कम हो। यह सिद्धांत OpenAI द्वारा तैनात प्रतिवादों के एक मजबूत सेट को रेखांकित करता है।
| रक्षा सिद्धांत | विवरण | मानव प्रणालियों से समानता | लाभ |
|---|---|---|---|
| बाधा | एजेंट की क्षमताओं और कार्यों को पूर्वनिर्धारित, सुरक्षित सीमाओं तक सीमित करना, अनधिकृत या अत्यधिक व्यापक कार्यों को रोकना। | व्यय सीमाएँ, प्राधिकरण स्तर, कर्मचारियों के लिए नीति प्रवर्तन। | संभावित नुकसान को कम करता है, भले ही कोई एजेंट आंशिक रूप से समझौता कर लिया गया हो। |
| पारदर्शिता | संभावित खतरनाक या संवेदनशील कार्यों को निष्पादित करने से पहले स्पष्ट उपयोगकर्ता पुष्टि की आवश्यकता। | अपवादों के लिए प्रबंधक की स्वीकृति, महत्वपूर्ण डेटा प्रविष्टि की दोबारा जांच। | उपयोगकर्ताओं को संवेदनशील कार्यों को ओवरराइड या पुष्टि करने का अधिकार देता है, नियंत्रण सुनिश्चित करता है। |
| सैंडबॉक्सिंग | एजेंट के कार्यों को अलग करना, खासकर जब बाहरी उपकरणों या अनुप्रयोगों के साथ इंटरैक्ट करते समय, एक सुरक्षित, निगरानी वाले वातावरण के भीतर। | संवेदनशील प्रणालियों तक नियंत्रित पहुंच, खंडित नेटवर्क वातावरण। | दुर्भावनापूर्ण कार्यों को मुख्य प्रणालियों को प्रभावित करने या डेटा निकालने से रोकता है। |
| प्रासंगिक S&S | संदिग्ध डेटा प्रवाह या अनधिकृत प्रसारण के लिए इनपुट स्रोतों और आउटपुट सिंक का विश्लेषण करना, दुर्भावनापूर्ण इरादे का संकेत देने वाले पैटर्न की पहचान करना। | डेटा हानि निवारण (DLP) प्रणाली, अंदरूनी खतरा पहचान प्रोटोकॉल। | अनधिकृत डेटा निष्कासन प्रयासों की पहचान करता है और उन्हें अवरुद्ध करता है। |
| प्रतिकूल प्रशिक्षण | एआई मॉडल को हेरफेर वाली भाषा, भ्रामक रणनीति और सोशल इंजीनियरिंग प्रयासों को पहचानने और उनका विरोध करने के लिए लगातार प्रशिक्षित करना। | सुरक्षा जागरूकता प्रशिक्षण, फ़िशिंग और घोटाले के प्रयासों को पहचानना। | एजेंट की दुर्भावनापूर्ण सामग्री का पता लगाने और उसे चिह्नित करने की अंतर्निहित क्षमता में सुधार करता है। |
ChatGPT में OpenAI की बहु-स्तरीय सुरक्षा प्रणालियाँ
OpenAI इस सोशल इंजीनियरिंग मॉडल को पारंपरिक सुरक्षा इंजीनियरिंग तकनीकों, विशेष रूप से 'सोर्स-सिंक विश्लेषण' के साथ, ChatGPT में एकीकृत करता है। इस ढांचे में, एक हमलावर को दो प्रमुख घटकों की आवश्यकता होती है: प्रभाव डालने के लिए एक 'सोर्स' (उदाहरण के लिए, अविश्वसनीय बाहरी सामग्री) और एक खतरनाक क्षमता का फायदा उठाने के लिए एक 'सिंक' (उदाहरण के लिए, जानकारी प्रसारित करना, एक दुर्भावनापूर्ण लिंक का पालन करना, या एक समझौता किए गए टूल के साथ इंटरैक्ट करना)। OpenAI का प्राथमिक उद्देश्य एक मौलिक सुरक्षा अपेक्षा को बनाए रखना है: खतरनाक कार्रवाई या संवेदनशील जानकारी का प्रसारण कभी भी चुपचाप या उचित सुरक्षा उपायों के बिना नहीं होना चाहिए।
ChatGPT के खिलाफ कई हमले सहायक को गुप्त संवादात्मक जानकारी निकालने और इसे किसी दुर्भावनापूर्ण तीसरे पक्ष को भेजने के लिए धोखा देने का प्रयास करते हैं। जबकि OpenAI का सुरक्षा प्रशिक्षण अक्सर एजेंट को ऐसे अनुरोधों को अस्वीकार करने के लिए प्रेरित करता है, उन मामलों के लिए एक महत्वपूर्ण शमन रणनीति जहाँ एजेंट पूरी तरह से आश्वस्त हो जाता है, वह है सुरक्षित यूआरएल। यह तंत्र विशेष रूप से यह पता लगाने के लिए डिज़ाइन किया गया है कि बातचीत के दौरान सीखी गई जानकारी किसी बाहरी तीसरे पक्ष के यूआरएल पर कब प्रसारित की जा सकती है। ऐसे दुर्लभ मामलों में, सिस्टम या तो स्पष्ट पुष्टि के लिए उपयोगकर्ता को जानकारी प्रदर्शित करता है या प्रसारण को पूरी तरह से अवरुद्ध कर देता है, जिससे एजेंट को उपयोगकर्ता के अनुरोध को पूरा करने के लिए एक वैकल्पिक, सुरक्षित तरीका खोजने का संकेत मिलता है। यह डेटा निष्कासन को रोकता है, भले ही एजेंट क्षण भर के लिए समझौता कर लिया गया हो। एजेंट-संचालित लिंक इंटरैक्शन से बचाव के बारे में अधिक जानकारी के लिए, उपयोगकर्ता समर्पित ब्लॉग पोस्ट, जब कोई AI एजेंट किसी लिंक पर क्लिक करता है तो अपने डेटा को सुरक्षित रखना देख सकते हैं।
एजेंटिक एआई में सुरक्षित यूआरएल और सैंडबॉक्सिंग की भूमिका
सुरक्षित यूआरएल तंत्र, जिसे संवेदनशील डेटा प्रसारण का पता लगाने और उसे नियंत्रित करने के लिए डिज़ाइन किया गया है, अपनी सुरक्षात्मक पहुंच को केवल लिंक क्लिक से आगे बढ़ाता है। इसी तरह के सुरक्षा उपाय एटलास (Atlas) के भीतर नेविगेशन और बुकमार्क पर और डीप रिसर्च (Deep Research) में खोज और नेविगेशन कार्यों पर लागू होते हैं। इन अनुप्रयोगों में स्वाभाविक रूप से एआई एजेंट विशाल बाहरी डेटा स्रोतों के साथ इंटरैक्ट करते हैं, जिससे बाहरी डेटा के लिए मजबूत नियंत्रण सर्वोपरि हो जाते हैं।
इसके अलावा, ChatGPT कैनवास (ChatGPT Canvas) और ChatGPT ऐप्स (ChatGPT Apps) जैसी एजेंटिक सुविधाएँ एक समान सुरक्षा दर्शन अपनाती हैं। जब एजेंट कार्यात्मक एप्लिकेशन बनाते और उपयोग करते हैं, तो ये संचालन एक सुरक्षित सैंडबॉक्स वातावरण के भीतर सीमित होते हैं। यह सैंडबॉक्सिंग अप्रत्याशित संचार या कार्यों का पता लगाने की अनुमति देता है। महत्वपूर्ण रूप से, कोई भी संभावित संवेदनशील या अनधिकृत इंटरैक्शन स्पष्ट उपयोगकर्ता सहमति के लिए एक अनुरोध को ट्रिगर करता है, यह सुनिश्चित करता है कि उपयोगकर्ता अपने डेटा और एजेंट के व्यवहार पर अंतिम नियंत्रण बनाए रखें। यह बहु-स्तरीय दृष्टिकोण, संदर्भ जागरूकता, उपयोगकर्ता सहमति और सैंडबॉक्सित निष्पादन के साथ सोर्स-सिंक विश्लेषण के संयोजन से, विकसित होते प्रॉम्प्ट इंजेक्शन और सोशल इंजीनियरिंग हमलों के खिलाफ एक मजबूत बचाव बनाता है। इन एजेंटिक क्षमताओं को सुरक्षित रूप से कैसे संचालित किया जा रहा है, इस पर अधिक विवरण के लिए, एजेंटिक एआई को क्रियान्वित करना पर चर्चा देखें।
स्वायत्त एजेंटों को विरोधी हमलों से भविष्य के लिए तैयार करना
विरोधी बाहरी दुनिया के साथ सुरक्षित बातचीत सुनिश्चित करना केवल एक वांछनीय विशेषता नहीं है, बल्कि पूरी तरह से स्वायत्त एआई एजेंटों के विकास के लिए एक आवश्यक नींव है। अपने अनुप्रयोगों में एआई मॉडल को एकीकृत करने वाले डेवलपर्स के लिए OpenAI की सिफारिश यह है कि वे विचार करें कि समान उच्च-दांव वाली स्थिति में एक मानव एजेंट के पास क्या नियंत्रण होगा और उन समान सीमाओं को एआई प्रणाली के भीतर लागू करें।
जबकि अधिकतम बुद्धिमान एआई मॉडल से अंततः मानव एजेंटों की तुलना में सोशल इंजीनियरिंग का अधिक प्रभावी ढंग से प्रतिरोध करने की आकांक्षा है, यह हमेशा हर एप्लिकेशन के लिए एक व्यवहार्य या लागत प्रभावी तात्कालिक लक्ष्य नहीं होता है। इसलिए, अंतर्निहित बाधाओं और निरीक्षण के साथ प्रणालियों को डिजाइन करना महत्वपूर्ण बना हुआ है। OpenAI एआई मॉडल के खिलाफ सोशल इंजीनियरिंग के प्रभावों पर लगातार शोध करने और उन्नत सुरक्षा विकसित करने के लिए प्रतिबद्ध है। ये निष्कर्ष उनकी एप्लिकेशन सुरक्षा आर्किटेक्चर और उनके एआई मॉडल के लिए चल रही प्रशिक्षण प्रक्रियाओं दोनों में एकीकृत हैं, जो लगातार विकसित हो रहे खतरे के परिदृश्य में एआई सुरक्षा के लिए एक सक्रिय और अनुकूली दृष्टिकोण सुनिश्चित करते हैं। इस दूरंदेशी रणनीति का उद्देश्य एआई एजेंटों को शक्तिशाली और स्वाभाविक रूप से भरोसेमंद बनाना है, जो एआई पारिस्थितिकी तंत्र में सुरक्षा बढ़ाने के प्रयासों को प्रतिध्वनित करता है, जिसमें दुर्भावनापूर्ण एआई उपयोगों को बाधित करना जैसी पहलें शामिल हैं।
अक्सर पूछे जाने वाले प्रश्न
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
अपडेट रहें
नवीनतम AI समाचार अपने इनबॉक्स में पाएं।
