एन्थ्रोपिक ने डीपसीक और मिनीमैक्स द्वारा आसवन हमलों (Distillation Attacks) का खुलासा किया

एन्थ्रोपिक ने औद्योगिक-स्तर के आसवन अभियानों का खुलासा किया

एन्थ्रोपिक ने सबूत प्रकाशित किए हैं कि तीन एआई प्रयोगशालाओं — DeepSeek, Moonshot AI और MiniMax — ने अवैध आसवन के माध्यम से Claude की क्षमताओं को निकालने के लिए समन्वित अभियान चलाए। इन अभियानों में लगभग 24,000 धोखाधड़ी वाले खातों के माध्यम से Claude के साथ 1.6 करोड़ से अधिक आदान-प्रदान हुए, जिससे एन्थ्रोपिक की सेवा की शर्तें और क्षेत्रीय पहुंच प्रतिबंधों का उल्लंघन हुआ।

आसवन एक वैध तकनीक है जहाँ एक छोटे मॉडल को एक मजबूत मॉडल के आउटपुट पर प्रशिक्षित किया जाता है। फ्रंटियर प्रयोगशालाएँ नियमित रूप से अपने स्वयं के मॉडल को सस्ते संस्करण बनाने के लिए आसवन करती हैं। लेकिन जब प्रतिस्पर्धी बिना प्राधिकरण के आसवन का उपयोग करते हैं, तो वे स्वतंत्र विकास के लिए आवश्यक लागत और समय के एक अंश पर शक्तिशाली क्षमताएँ प्राप्त कर लेते हैं।

हमलों ने Claude की सबसे विशिष्ट विशेषताओं को लक्षित किया: एजेंटिक तर्क, उपकरण का उपयोग और कोडिंग — वही क्षमताएं जो Claude Opus 4.6 और Claude Sonnet 4.6 को शक्ति प्रदान करती हैं।

प्रत्येक अभियान का पैमाना और लक्ष्य

लैब	आदान-प्रदान	प्राथमिक लक्ष्य
DeepSeek	1.5 लाख+	तर्क, रिवॉर्ड-मॉडल ग्रेडिंग, सेंसरशिप वर्कअराउंड
Moonshot AI	34 लाख+	एजेंटिक तर्क, उपकरण उपयोग, कंप्यूटर विजन
MiniMax	1.3 करोड़+	एजेंटिक कोडिंग, उपकरण ऑर्केस्ट्रेशन

DeepSeek ने एक उल्लेखनीय तकनीक का इस्तेमाल किया: प्रॉम्प्ट जिसमें Claude को अपनी आंतरिक तर्क प्रक्रिया को कदम दर कदम स्पष्ट करने के लिए कहा गया, जिससे बड़े पैमाने पर 'चेन-ऑफ-थॉट' प्रशिक्षण डेटा प्रभावी ढंग से उत्पन्न हुआ। उन्होंने राजनीतिक रूप से संवेदनशील प्रश्नों के लिए सेंसरशिप-सुरक्षित विकल्प उत्पन्न करने के लिए Claude का भी उपयोग किया — संभवतः अपने स्वयं के मॉडल को प्रशिक्षित करने के लिए ताकि बातचीत को सेंसर किए गए विषयों से दूर रखा जा सके। एन्थ्रोपिक ने इन खातों को प्रयोगशाला के विशिष्ट शोधकर्ताओं तक ट्रेस किया।

Moonshot AI (Kimi मॉडल) ने कई एक्सेस पाथवे पर सैकड़ों धोखाधड़ी वाले खातों का इस्तेमाल किया। बाद के चरण में, Moonshot ने एक अधिक लक्षित दृष्टिकोण अपनाया, जिसमें Claude के तर्क ट्रेस को निकालने और पुनर्निर्माण करने का प्रयास किया गया।

MiniMax ने 1.3 करोड़ से अधिक आदान-प्रदान के साथ सबसे बड़ा अभियान चलाया। एन्थ्रोपिक ने इस अभियान का पता तब लगाया जब यह अभी भी सक्रिय था — MiniMax द्वारा अपने प्रशिक्षित मॉडल को जारी करने से पहले। जब एन्थ्रोपिक ने सक्रिय अभियान के दौरान एक नया मॉडल जारी किया, तो MiniMax ने 24 घंटों के भीतर दिशा बदल दी, अपनी लगभग आधी ट्रैफ़िक को नवीनतम क्षमताओं को कैप्चर करने के लिए पुनर्निर्देशित किया।

आसवनकर्ता पहुंच प्रतिबंधों को कैसे बायपास करते हैं

एन्थ्रोपिक राष्ट्रीय सुरक्षा कारणों से चीन में वाणिज्यिक Claude पहुंच प्रदान नहीं करता है। प्रयोगशालाओं ने वाणिज्यिक प्रॉक्सी सेवाओं के माध्यम से इसे दरकिनार कर दिया, जो बड़े पैमाने पर फ्रंटियर मॉडल पहुंच को फिर से बेचते हैं।

ये सेवाएँ जिसे एन्थ्रोपिक "हाइड्रा क्लस्टर" आर्किटेक्चर कहता है, उसे चलाती हैं: धोखाधड़ी वाले खातों के व्यापक नेटवर्क जो एपीआई और तृतीय-पक्ष क्लाउड प्लेटफॉर्म पर ट्रैफ़िक वितरित करते हैं। जब एक खाता प्रतिबंधित किया जाता है, तो एक नया खाता उसकी जगह ले लेता है। एक प्रॉक्सी नेटवर्क ने एक साथ 20,000 से अधिक धोखाधड़ी वाले खातों का प्रबंधन किया, जिसमें आसवन ट्रैफ़िक को असंबंधित ग्राहक अनुरोधों के साथ मिलाया गया ताकि पता लगाना कठिन हो।

आसवन को सामान्य उपयोग से जो चीज अलग करती है, वह है पैटर्न। एक अकेला प्रॉम्प्ट सौम्य लग सकता है, लेकिन जब सैकड़ों समन्वित खातों में हजारों बार भिन्नताएं आती हैं, सभी एक ही संकीर्ण क्षमता को लक्षित करते हैं, तो पैटर्न स्पष्ट हो जाता है।

राष्ट्रीय सुरक्षा निहितार्थ

अवैध रूप से आसवित मॉडल में वे सुरक्षा गार्डरेल नहीं होते हैं जो अमेरिकी कंपनियाँ फ्रंटियर सिस्टम में बनाती हैं। ये गार्डरेल एआई को जैविक हथियार विकसित करने, आपत्तिजनक साइबर संचालन करने या बड़े पैमाने पर निगरानी को सक्षम करने से रोकते हैं।

अवैध आसवन के माध्यम से बनाए गए मॉडल में उन सुरक्षाओं को बनाए रखने की संभावना नहीं है। विदेशी प्रयोगशालाएँ असुरक्षित क्षमताओं को सैन्य, खुफिया और निगरानी प्रणालियों में डाल सकती हैं। यदि आसवित मॉडल ओपन-सोर्स किए जाते हैं, तो खतरनाक क्षमताएं किसी भी सरकार के नियंत्रण से परे स्वतंत्र रूप से फैल जाती हैं।

आसवन हमले अमेरिकी निर्यात नियंत्रणों को भी कमजोर करते हैं। इन हमलों में दृश्यता के बिना, इन प्रयोगशालाओं द्वारा स्पष्ट रूप से तीव्र प्रगति को गलत तरीके से इस बात के सबूत के रूप में व्याख्या किया जा सकता है कि निर्यात नियंत्रण अप्रभावी हैं। वास्तविकता में, ये प्रगति अमेरिकी मॉडल से निकाली गई क्षमताओं पर निर्भर करती है, और बड़े पैमाने पर निष्कर्षण के लिए उन्नत चिप्स की आवश्यकता होती है जिन्हें निर्यात नियंत्रण प्रतिबंधित करने के लिए डिज़ाइन किए गए हैं।

एन्थ्रोपिक के जवाबी उपाय

एन्थ्रोपिक आसवन हमलों के खिलाफ कई सुरक्षा उपाय तैनात कर रहा है:

पता लगाने वाले क्लासिफायरियर: व्यवहारिक फिंगरप्रिंटिंग सिस्टम जो एपीआई ट्रैफ़िक में आसवन पैटर्न की पहचान करते हैं, जिसमें तर्क प्रशिक्षण डेटा बनाने के लिए उपयोग की जाने वाली 'चेन-ऑफ-थॉट' elicitation शामिल है।
खुफिया जानकारी साझा करना: आसवन परिदृश्य की समग्र तस्वीर के लिए अन्य एआई प्रयोगशालाओं, क्लाउड प्रदाताओं और संबंधित अधिकारियों के साथ साझा किए गए तकनीकी संकेतक।
पहुंच नियंत्रण: शैक्षिक खातों, सुरक्षा अनुसंधान कार्यक्रमों और स्टार्टअप संगठनों के लिए मजबूत सत्यापन — सबसे अधिक शोषित होने वाले रास्ते।
मॉडल-स्तरीय सुरक्षा उपाय: उत्पाद, एपीआई और मॉडल-स्तर के जवाबी उपाय जो वैध उपयोग को खराब किए बिना अवैध आसवन के लिए आउटपुट प्रभावकारिता को कम करने के लिए डिज़ाइन किए गए हैं।

एन्थ्रोपिक ने इन निष्कर्षों को अपने पहले के Claude Code Security के लिए समर्थन से भी जोड़ा है, जो फ्रंटियर एआई क्षमताओं को सुरक्षित रखने की एक व्यापक रणनीति का हिस्सा है।

उद्योग-व्यापी प्रतिक्रिया की आवश्यकता है

एन्थ्रोपिक इस बात पर जोर देता है कि कोई भी अकेली कंपनी आसवन हमलों को अकेले हल नहीं कर सकती है। ये अभियान वाणिज्यिक प्रॉक्सी सेवाओं, तृतीय-पक्ष क्लाउड प्लेटफॉर्म और खाता सत्यापन में कमियों का फायदा उठाते हैं जो पूरे एआई पारिस्थितिकी तंत्र में फैले हुए हैं।

इन अभियानों की बढ़ती तीव्रता और परिष्कार कार्रवाई करने की खिड़की को संकीर्ण कर देता है। एन्थ्रोपिक ने देखा है कि आसवनकर्ता तेजी से अनुकूलन करते हैं: जब नए मॉडल जारी किए जाते हैं, तो निष्कर्षण प्रयास घंटों के भीतर दिशा बदल देते हैं। जब खाते प्रतिबंधित किए जाते हैं, तो प्रॉक्सी नेटवर्क उन्हें तुरंत हाइड्रा क्लस्टर आर्किटेक्चर के माध्यम से प्रतिस्थापित कर देते हैं जिसमें विफलता का कोई एक बिंदु नहीं होता है।

खतरे से निपटने के लिए एआई कंपनियों, क्लाउड प्रदाताओं और नीति निर्माताओं के बीच समन्वित कार्रवाई की आवश्यकता है। एन्थ्रोपिक ने अपने निष्कर्षों को प्रकाशित किया ताकि अनधिकृत निष्कर्षण से फ्रंटियर एआई क्षमताओं की रक्षा करने में रुचि रखने वाले सभी लोगों के लिए सबूत उपलब्ध हो सकें। कंपनी खाता सत्यापन पर उद्योग-व्यापी मानकों, साझा खतरे की खुफिया जानकारी के फ्रेमवर्क और बड़े पैमाने पर अवैध आसवन के खिलाफ प्रवर्तन के लिए नीति समर्थन का आह्वान कर रही है।

मूल स्रोत

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

अक्सर पूछे जाने वाले प्रश्न

एआई आसवन हमले क्या हैं?

एआई आसवन हमलों में एक कम सक्षम मॉडल को किसी मजबूत मॉडल के आउटपुट पर बिना अनुमति के प्रशिक्षित करना शामिल है। प्रतिस्पर्धी एक फ्रंटियर मॉडल से विशिष्ट क्षमताओं को निकालने के लिए सावधानीपूर्वक तैयार किए गए प्रॉम्प्ट की बड़ी मात्रा उत्पन्न करते हैं, फिर उन प्रतिक्रियाओं का उपयोग अपने सिस्टम को प्रशिक्षित करने के लिए करते हैं। एन्थ्रोपिक ने Claude की क्षमताओं को निकालने के लिए डीपसीक, मूनशॉट और मिनीमैक्स द्वारा उपयोग किए गए लगभग 24,000 धोखाधड़ी वाले खातों में 1.6 करोड़ से अधिक अवैध आदान-प्रदान की पहचान की।

किन कंपनियों ने Claude की क्षमताओं को आसवन किया?

एन्थ्रोपिक ने तीन चीनी एआई प्रयोगशालाओं की पहचान की जो औद्योगिक-स्तर पर आसवन अभियान चला रही थीं: DeepSeek (तर्क और सेंसरशिप वर्कअराउंड को लक्षित करते हुए 1.5 लाख से अधिक आदान-प्रदान), Moonshot AI (एजेंटिक तर्क और उपकरण उपयोग को लक्षित करते हुए 34 लाख से अधिक आदान-प्रदान), और MiniMax (एजेंटिक कोडिंग और उपकरण ऑर्केस्ट्रेशन को लक्षित करते हुए 1.3 करोड़ से अधिक आदान-प्रदान)।

आसवन हमले राष्ट्रीय सुरक्षा के लिए जोखिम क्यों हैं?

अवैध रूप से आसवित मॉडल में वे सुरक्षा गार्डरेल नहीं होते हैं जो एन्थ्रोपिक जैसी अमेरिकी कंपनियाँ अपने सिस्टम में बनाती हैं। इन असुरक्षित मॉडल को आपत्तिजनक साइबर संचालन, दुष्प्रचार अभियानों, बड़े पैमाने पर निगरानी और यहाँ तक कि जैविक हथियार विकास समर्थन के लिए भी तैनात किया जा सकता है। यदि आसवित मॉडल ओपन-सोर्स किए जाते हैं, तो खतरनाक क्षमताएं किसी भी एक सरकार के नियंत्रण से परे फैल जाती हैं, जिससे अमेरिका के एआई लाभ को बनाए रखने के लिए डिज़ाइन किए गए निर्यात नियंत्रण कमजोर पड़ जाते हैं।

DeepSeek, Moonshot और MiniMax ने Claude तक कैसे पहुंच बनाई?

इन प्रयोगशालाओं ने वाणिज्यिक प्रॉक्सी सेवाओं का उपयोग करके एन्थ्रोपिक के क्षेत्रीय पहुंच प्रतिबंधों को दरकिनार कर दिया, जो बड़े पैमाने पर Claude API पहुंच को फिर से बेचते हैं। ये सेवाएँ हाइड्रा क्लस्टर आर्किटेक्चर चलाती हैं जिनमें धोखाधड़ी वाले खातों के व्यापक नेटवर्क एन्थ्रोपिक के एपीआई और तृतीय-पक्ष क्लाउड प्लेटफॉर्म पर वितरित होते हैं। एक प्रॉक्सी नेटवर्क ने एक साथ 20,000 से अधिक धोखाधड़ी वाले खातों का प्रबंधन किया, जिसमें आसवन ट्रैफ़िक को वैध अनुरोधों के साथ मिलाया गया ताकि पता लगने से बचा जा सके।

एन्थ्रोपिक आसवन हमलों पर कैसे प्रतिक्रिया दे रहा है?

एन्थ्रोपिक कई जवाबी उपाय तैनात कर रहा है: एपीआई ट्रैफ़िक में आसवन पैटर्न का पता लगाने के लिए व्यवहारिक फिंगरप्रिंटिंग क्लासिफायरियर, अन्य एआई प्रयोगशालाओं और क्लाउड प्रदाताओं के साथ खुफिया जानकारी साझा करना, मजबूत खाता सत्यापन, और मॉडल-स्तर की सुरक्षा उपाय जो वैध उपयोगकर्ताओं के लिए सेवा को खराब किए बिना अवैध आसवन के लिए आउटपुट प्रभावकारिता को कम करते हैं। एन्थ्रोपिक समन्वित उद्योग और नीतिगत प्रतिक्रियाओं का भी आह्वान कर रहा है।

DeepSeek ने Claude से विशेष रूप से क्या निकाला?

DeepSeek ने Claude की तर्क क्षमताएं, रूब्रिक-आधारित ग्रेडिंग कार्य (Claude को रीइन्फोर्समेंट लर्निंग के लिए एक रिवॉर्ड मॉडल के रूप में कार्य कराना), और राजनीतिक रूप से संवेदनशील प्रश्नों के लिए सेंसरशिप-सुरक्षित विकल्प लक्षित किए। उन्होंने उन तकनीकों का उपयोग किया जिसमें Claude को अपनी आंतरिक तर्क प्रक्रिया को कदम दर कदम स्पष्ट करने के लिए कहा गया, जिससे बड़े पैमाने पर 'चेन-ऑफ-थॉट' प्रशिक्षण डेटा उत्पन्न हुआ। एन्थ्रोपिक ने इन खातों को DeepSeek के विशिष्ट शोधकर्ताओं तक ट्रेस किया।

अपडेट रहें

नवीनतम AI समाचार अपने इनबॉक्स में पाएं।

शेयर करें