Anthropic نے DeepSeek اور MiniMax کی جانب سے ڈسٹلیشن حملوں کو بے نقاب کیا

Anthropic نے صنعتی پیمانے پر ڈسٹلیشن مہمات کو بے نقاب کیا

Anthropic نے ایسے شواہد شائع کیے ہیں کہ تین AI لیبارٹریوں — DeepSeek, Moonshot AI, اور MiniMax — نے غیر قانونی ڈسٹلیشن کے ذریعے Claude کی صلاحیتوں کو نکالنے کے لیے مربوط مہمات چلائیں۔ ان مہمات نے تقریباً 24,000 دھوکہ دہی والے اکاؤنٹس کے ذریعے Claude کے ساتھ 16 ملین سے زیادہ تبادلے پیدا کیے، جو Anthropic کی سروس کی شرائط اور علاقائی رسائی کی پابندیوں کی خلاف ورزی تھی۔

ڈسٹلیشن ایک جائز تکنیک ہے جہاں ایک چھوٹے ماڈل کو ایک مضبوط ماڈل کے آؤٹ پٹ پر تربیت دی جاتی ہے۔ فرنٹیئر لیبز باقاعدگی سے اپنے ماڈلز کو ڈسٹل کرتی ہیں تاکہ سستے ورژن بنا سکیں۔ لیکن جب حریف بغیر اجازت کے ڈسٹلیشن کا استعمال کرتے ہیں، تو وہ آزادانہ ترقی کے لیے درکار لاگت اور وقت کے ایک حصے میں طاقتور صلاحیتیں حاصل کر لیتے ہیں۔

حملوں نے Claude کی سب سے نمایاں خصوصیات کو نشانہ بنایا: ایجنسی کا استدلال، ٹول کا استعمال، اور کوڈنگ — وہی صلاحیتیں جو Claude Opus 4.6 اور Claude Sonnet 4.6 کو طاقت دیتی ہیں۔

ہر مہم کا پیمانہ اور اہداف

لیب	تبادلے	بنیادی اہداف
DeepSeek	150,000+	استدلال، انعامی ماڈل گریڈنگ، سنسرشپ کے حل
Moonshot AI	3.4 ملین+	ایجنسی کا استدلال، ٹول کا استعمال، کمپیوٹر وژن
MiniMax	13 ملین+	ایجنسی کوڈنگ، ٹول آرکیسٹریشن

DeepSeek نے ایک قابل ذکر تکنیک استعمال کی: ایسے پرامپٹس جنہوں نے Claude سے اس کے اندرونی استدلال کو مرحلہ وار بیان کرنے کو کہا، مؤثر طریقے سے بڑے پیمانے پر چین آف تھاٹ ٹریننگ ڈیٹا تیار کیا۔ انہوں نے Claude کو سیاسی طور پر حساس سوالات کے لیے سنسرشپ سے محفوظ متبادل تیار کرنے کے لیے بھی استعمال کیا — غالباً اپنے ماڈلز کو تربیت دینے کے لیے تاکہ گفتگو کو سنسرشپ والے موضوعات سے دور رکھا جا سکے۔ Anthropic نے ان اکاؤنٹس کا سراغ لیب کے مخصوص محققین تک لگایا۔

Moonshot AI (کیمی ماڈلز) نے متعدد رسائی کے راستوں پر سینکڑوں دھوکہ دہی والے اکاؤنٹس استعمال کیے۔ بعد کے مرحلے میں، Moonshot نے زیادہ ہدف شدہ طریقہ اختیار کیا، جس میں Claude کے استدلال کے نشانات کو نکالنے اور دوبارہ تشکیل دینے کی کوشش کی گئی۔

MiniMax نے 13 ملین سے زیادہ تبادلوں کے ساتھ سب سے بڑی مہم چلائی۔ Anthropic نے اس مہم کا پتہ اس وقت لگایا جب یہ ابھی بھی فعال تھی — اس سے پہلے کہ MiniMax نے اس ماڈل کو جاری کیا جسے وہ تربیت دے رہا تھا۔ جب Anthropic نے فعال مہم کے دوران ایک نیا ماڈل جاری کیا، تو MiniMax نے 24 گھنٹوں کے اندر اندر اپنی سمت تبدیل کر لی، اپنے تقریباً آدھے ٹریفک کو تازہ ترین صلاحیتوں کو حاصل کرنے کے لیے موڑ دیا۔

ڈسٹلرز رسائی کی پابندیوں کو کیسے نظرانداز کرتے ہیں

Anthropic قومی سلامتی وجوہات کی بنا پر چین میں تجارتی Claude تک رسائی فراہم نہیں کرتا۔ لیبز نے اس کو تجارتی پراکسی خدمات کے ذریعے نظرانداز کیا جو بڑے پیمانے پر فرنٹیئر ماڈل تک رسائی کو دوبارہ فروخت کرتی ہیں۔

یہ خدمات وہ چلاتی ہیں جسے Anthropic "ہائیڈرا کلسٹر" آرکیٹیکچرز کہتا ہے: دھوکہ دہی والے اکاؤنٹس کے وسیع نیٹ ورک جو API اور فریق ثالث کلاؤڈ پلیٹ فارمز پر ٹریفک کو تقسیم کرتے ہیں۔ جب ایک اکاؤنٹ پر پابندی لگائی جاتی ہے، تو ایک نیا اسے بدل دیتا ہے۔ ایک پراکسی نیٹ ورک نے بیک وقت 20,000 سے زیادہ دھوکہ دہی والے اکاؤنٹس کو منظم کیا، جس میں ڈسٹلیشن ٹریفک کو غیر متعلقہ گاہکوں کی درخواستوں کے ساتھ ملا کر پتہ لگانا مشکل بنایا گیا۔

ڈسٹلیشن کو عام استعمال سے جو چیز ممتاز کرتی ہے وہ پیٹرن ہے۔ ایک واحد پرامپٹ بے ضرر لگ سکتا ہے، لیکن جب سینکڑوں مربوط اکاؤنٹس کے ذریعے دسیوں ہزار بار مختلف حالتیں آتی ہیں، جو سب ایک ہی تنگ صلاحیت کو نشانہ بناتی ہیں، تو پیٹرن واضح ہو جاتا ہے۔

قومی سلامتی کے مضمرات

غیر قانونی طور پر ڈسٹل کیے گئے ماڈلز میں وہ حفاظتی گارڈریلز نہیں ہوتیں جو امریکی کمپنیاں فرنٹیئر سسٹمز میں شامل کرتی ہیں۔ یہ گارڈریلز AI کو بائیو ویپن تیار کرنے، جارحانہ سائبر آپریشنز کرنے، یا بڑے پیمانے پر نگرانی کے قابل بنانے سے روکتی ہیں۔

غیر قانونی ڈسٹلیشن کے ذریعے بنائے گئے ماڈلز میں ان تحفظات کو برقرار رکھنے کا امکان نہیں ہے۔ غیر ملکی لیبز غیر محفوظ صلاحیتوں کو فوجی، انٹیلی جنس اور نگرانی کے سسٹمز میں شامل کر سکتی ہیں۔ اگر ڈسٹل کیے گئے ماڈلز کو اوپن سورس کیا جائے تو خطرناک صلاحیتیں کسی بھی حکومت کے کنٹرول سے باہر آزادانہ طور پر پھیل جاتی ہیں۔

ڈسٹلیشن حملے امریکی ایکسپورٹ کنٹرولز کو بھی کمزور کرتے ہیں۔ ان حملوں میں بصیرت کے بغیر، ان لیبز کی بظاہر تیز رفتار ترقی کو غلط طور پر اس بات کا ثبوت سمجھا جا سکتا ہے کہ ایکسپورٹ کنٹرولز غیر مؤثر ہیں۔ حقیقت میں، یہ ترقی امریکی ماڈلز سے نکالی گئی صلاحیتوں پر منحصر ہے، اور بڑے پیمانے پر ایکسٹریکشن کو انجام دینے کے لیے جدید چپس کی ضرورت ہوتی ہے جنہیں ایکسپورٹ کنٹرولز محدود کرنے کے لیے بنائے گئے ہیں۔

Anthropic کے جوابی اقدامات

Anthropic ڈسٹلیشن حملوں کے خلاف متعدد دفاعی اقدامات کر رہا ہے:

پتہ لگانے والے کلاسیفائرز: رویے پر مبنی فنگر پرنٹنگ سسٹمز جو API ٹریفک میں ڈسٹلیشن پیٹرن کی نشاندہی کرتے ہیں، بشمول چین آف تھاٹ ایلیسیٹیشن جو استدلال کی تربیت کے ڈیٹا کی تعمیر کے لیے استعمال ہوتا ہے۔
انٹیلی جنس شیئرنگ: دیگر AI لیبز، کلاؤڈ فراہم کنندگان، اور متعلقہ حکام کے ساتھ تکنیکی اشارے شیئر کرنا تاکہ ڈسٹلیشن کے منظر نامے کی جامع تصویر حاصل ہو سکے۔
رسائی کنٹرولز: تعلیمی اکاؤنٹس، سیکیورٹی ریسرچ پروگرامز، اور اسٹارٹ اپ تنظیموں کے لیے مضبوط تصدیق — وہ راستے جن کا سب سے زیادہ استحصال کیا جاتا ہے۔
ماڈل سطح پر حفاظتی اقدامات: پروڈکٹ، API، اور ماڈل سطح پر جوابی اقدامات جو غیر قانونی ڈسٹلیشن کے لیے آؤٹ پٹ کی تاثیر کو کم کرنے کے لیے بنائے گئے ہیں بغیر جائز استعمال کو خراب کیے۔

Anthropic نے ان نتائج کو دفاع کرنے والوں کے لیے Claude Code Security صلاحیتوں کے لیے اپنی سابقہ حمایت سے بھی جوڑا ہے، جو فرنٹیئر AI صلاحیتوں کو محفوظ رکھنے کی ایک وسیع حکمت عملی کا حصہ ہے۔

صنعت گیر ردعمل کی ضرورت ہے

Anthropic اس بات پر زور دیتا ہے کہ کوئی بھی ایک کمپنی تنہا ڈسٹلیشن حملوں کو حل نہیں کر سکتی۔ یہ مہمات تجارتی پراکسی خدمات، فریق ثالث کلاؤڈ پلیٹ فارمز، اور اکاؤنٹ کی تصدیق میں موجود خامیوں کا استحصال کرتی ہیں جو پورے AI ایکو سسٹم پر پھیلی ہوئی ہیں۔

ان مہمات کی بڑھتی ہوئی شدت اور نفاست عمل کرنے کی کھڑکی کو تنگ کرتی ہے۔ Anthropic نے مشاہدہ کیا ہے کہ ڈسٹلرز تیزی سے موافقت اختیار کرتے ہیں: جب نئے ماڈلز جاری ہوتے ہیں، تو ایکسٹریکشن کی کوششیں گھنٹوں کے اندر بدل جاتی ہیں۔ جب اکاؤنٹس پر پابندی لگائی جاتی ہے، تو پراکسی نیٹ ورکس انہیں ہائیڈرا کلسٹر آرکیٹیکچرز کے ذریعے فوری طور پر بدل دیتے ہیں جس میں کوئی ایک ناکامی کا نقطہ نہیں ہوتا۔

اس خطرے سے نمٹنے کے لیے AI کمپنیوں، کلاؤڈ فراہم کنندگان، اور پالیسی سازوں کے درمیان مربوط کارروائی کی ضرورت ہے۔ Anthropic نے اپنے نتائج شائع کیے تاکہ فرنٹیئر AI صلاحیتوں کو غیر مجاز ایکسٹریکشن سے بچانے میں دلچسپی رکھنے والے ہر فرد کے لیے شواہد دستیاب ہوں۔ کمپنی اکاؤنٹ کی تصدیق، مشترکہ تھریٹ انٹیلی جنس فریم ورکس، اور بڑے پیمانے پر غیر قانونی ڈسٹلیشن کے خلاف نفاذ کے لیے پالیسی سپورٹ پر صنعت گیر معیارات کا مطالبہ کر رہی ہے۔

اصل ماخذ

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

اکثر پوچھے جانے والے سوالات

AI ڈسٹلیشن حملے کیا ہیں؟

AI ڈسٹلیشن حملوں میں ایک کم قابل ماڈل کو بغیر اجازت کے ایک مضبوط ماڈل کے آؤٹ پٹ پر تربیت دینا شامل ہے۔ حریف ایک فرنٹیئر ماڈل سے مخصوص صلاحیتوں کو نکالنے کے لیے بڑے پیمانے پر احتیاط سے تیار کردہ پرامپٹس تیار کرتے ہیں، پھر ان جوابات کو اپنے سسٹمز کو تربیت دینے کے لیے استعمال کرتے ہیں۔ Anthropic نے DeepSeek, Moonshot, اور MiniMax کے ذریعے Claude کی صلاحیتوں کو نکالنے کے لیے استعمال ہونے والے تقریباً 24,000 دھوکہ دہی والے اکاؤنٹس پر 16 ملین سے زیادہ غیر قانونی تبادلے کی نشاندہی کی۔

کن کمپنیوں نے Claude کی صلاحیتوں کو ڈسٹل کیا؟

Anthropic نے صنعتی پیمانے پر ڈسٹلیشن مہمات چلانے والی تین چینی AI لیبارٹریوں کی نشاندہی کی: DeepSeek (وجہ اور سنسرشپ کے حل کو نشانہ بناتے ہوئے 150,000 سے زیادہ تبادلے)، Moonshot AI (ایجنسی کی وجہ اور ٹول کے استعمال کو نشانہ بناتے ہوئے 3.4 ملین سے زیادہ تبادلے)، اور MiniMax (ایجنسی کوڈنگ اور ٹول آرکیسٹریشن کو نشانہ بناتے ہوئے 13 ملین سے زیادہ تبادلے)۔

ڈسٹلیشن حملے قومی سلامتی کے لیے خطرہ کیوں ہیں؟

غیر قانونی طور پر ڈسٹل کیے گئے ماڈلز میں وہ حفاظتی گارڈریلز نہیں ہوتیں جو Anthropic جیسی امریکی کمپنیاں اپنے سسٹمز میں شامل کرتی ہیں۔ یہ غیر محفوظ ماڈلز جارحانہ سائبر آپریشنز، غلط معلومات کی مہمات، بڑے پیمانے پر نگرانی، اور یہاں تک کہ بائیو ویپن کی ترقی میں مدد کے لیے تعینات کیے جا سکتے ہیں۔ اگر ڈسٹل کیے گئے ماڈلز کو اوپن سورس کیا جائے تو خطرناک صلاحیتیں کسی بھی ایک حکومت کے کنٹرول سے باہر پھیل جاتی ہیں، جو امریکہ کے AI فائدے کو برقرار رکھنے کے لیے بنائے گئے ایکسپورٹ کنٹرولز کو کمزور کرتی ہیں۔

DeepSeek, Moonshot, اور MiniMax نے Claude تک کیسے رسائی حاصل کی؟

لیبز نے Anthropic کی علاقائی رسائی کی پابندیوں کو تجارتی پراکسی خدمات کا استعمال کرتے ہوئے نظرانداز کیا جو بڑے پیمانے پر Claude API تک رسائی کو دوبارہ فروخت کرتی ہیں۔ یہ خدمات ہائیڈرا کلسٹر آرکیٹیکچرز چلاتی ہیں جن میں Anthropic کے API اور فریق ثالث کلاؤڈ پلیٹ فارمز پر پھیلے ہوئے دھوکہ دہی والے اکاؤنٹس کے وسیع نیٹ ورک ہوتے ہیں۔ ایک پراکسی نیٹ ورک نے بیک وقت 20,000 سے زیادہ دھوکہ دہی والے اکاؤنٹس کو منظم کیا، جس میں ڈسٹلیشن ٹریفک کو جائز درخواستوں کے ساتھ ملا کر پتہ لگانے سے بچا جا سکے۔

Anthropic ڈسٹلیشن حملوں کا جواب کیسے دے رہا ہے؟

Anthropic متعدد جوابی اقدامات کر رہا ہے: API ٹریفک میں ڈسٹلیشن پیٹرن کا پتہ لگانے کے لیے رویے پر مبنی فنگر پرنٹنگ کلاسیفائرز، دیگر AI لیبز اور کلاؤڈ فراہم کنندگان کے ساتھ انٹیلی جنس شیئرنگ، مضبوط اکاؤنٹ کی تصدیق، اور ماڈل سطح پر حفاظتی اقدامات جو جائز صارفین کے لیے سروس کو خراب کیے بغیر غیر قانونی ڈسٹلیشن کے لیے آؤٹ پٹ کی تاثیر کو کم کرتے ہیں۔ Anthropic مربوط صنعت اور پالیسی کے ردعمل کا بھی مطالبہ کر رہا ہے۔

DeepSeek نے Claude سے خاص طور پر کیا نکالا؟

DeepSeek نے Claude کی استدلال کی صلاحیتوں، روبرک پر مبنی گریڈنگ کے کاموں (Claude کو کمک سیکھنے کے لیے ایک انعامی ماڈل کے طور پر کام کرنے پر مجبور کرنا)، اور سیاسی طور پر حساس سوالات کے لیے سنسرشپ سے محفوظ متبادلات کو نشانہ بنایا۔ انہوں نے ایسی تکنیکیں استعمال کیں جن میں Claude سے اس کے اندرونی استدلال کو مرحلہ وار بیان کرنے کو کہا گیا، جس سے بڑے پیمانے پر چین آف تھاٹ ٹریننگ ڈیٹا تیار ہوا۔ Anthropic نے ان اکاؤنٹس کا سراغ DeepSeek کے مخصوص محققین تک لگایا۔

اپ ڈیٹ رہیں

تازہ ترین AI خبریں اپنے ان باکس میں حاصل کریں۔

شیئر کریں