Anthropic حملات تقطیر (Distillation) توسط DeepSeek و MiniMax را افشا می‌کند

Q: چرا حملات تقطیر یک خطر امنیت ملی است؟

مدلهای تقطیر شده غیرقانونی فاقد حفاظتهای ایمنی هستند که شرکتهای آمریکایی مانند Anthropic در سیستمهای خود تعبیه میکنند. این مدلهای بدون حفاظت میتوانند برای عملیات سایبری تهاجمی، کمپینهای اطلاعات نادرست، نظارت گسترده، و حتی پشتیبانی از توسعه سلاحهای بیولوژیکی مستقر شوند. اگر مدلهای تقطیر شده متنباز شوند، قابلیتهای خطرناک فراتر از کنترل هر دولتی پخش میشوند و کنترلهای صادراتی طراحیشده برای حفظ برتری هوش مصنوعی آمریکا را تضعیف میکنند.

Q: DeepSeek، Moonshot و MiniMax چگونه به Claude دسترسی پیدا کردند؟

این آزمایشگاهها محدودیتهای دسترسی منطقهای Anthropic را با استفاده از خدمات پروکسی تجاری که دسترسی به API Claude را در مقیاس بزرگ میفروشند، دور زدند. این سرویسها از معماریهای خوشه هیدرا با شبکههای گستردهای از حسابهای جعلی که در API Anthropic و پلتفرمهای ابری شخص ثالث توزیع شدهاند، استفاده میکنند. یکی از شبکههای پروکسی بیش از ۲۰,۰۰۰ حساب جعلی را به طور همزمان مدیریت میکرد و ترافیک تقطیر را با درخواستهای قانونی ترکیب میکرد تا از شناسایی جلوگیری کند.

Q: Anthropic چگونه به حملات تقطیر پاسخ میدهد؟

Anthropic در حال استقرار چندین اقدام متقابل است: دستهبندیکنندههای اثرانگشت رفتاری برای شناسایی الگوهای تقطیر در ترافیک API، اشتراکگذاری اطلاعات با سایر آزمایشگاههای هوش مصنوعی و ارائهدهندگان ابری، تأیید حساب کاربری تقویتشده، و حفاظتهای سطح مدل که اثربخشی خروجی را برای تقطیر غیرقانونی کاهش میدهند بدون اینکه به خدمات کاربران قانونی لطمه بزنند. Anthropic همچنین خواستار پاسخهای هماهنگ صنعت و سیاستگذاران است.

Q: DeepSeek به طور خاص چه چیزی را از Claude استخراج کرد؟

DeepSeek قابلیتهای استدلالی Claude، وظایف درجهبندی مبتنی بر ارزیابی (که Claude را به عنوان یک مدل پاداش برای یادگیری تقویتی عمل میکند) و جایگزینهای ایمن در برابر سانسور برای پرسشهای سیاسی حساس را هدف قرار داد. آنها از تکنیکهایی استفاده کردند که از Claude میخواستند استدلال داخلی خود را گام به گام بیان کند و دادههای آموزشی زنجیره تفکر را در مقیاس بزرگ تولید کنند. Anthropic این حسابها را به محققان خاصی در DeepSeek ردیابی کرد.

Anthropic کمپین‌های تقطیر در مقیاس صنعتی را کشف می‌کند

Anthropic شواهدی منتشر کرده است که نشان می‌دهد سه آزمایشگاه هوش مصنوعی — DeepSeek، Moonshot AI، و MiniMax — کمپین‌های هماهنگ‌شده‌ای را برای استخراج قابلیت‌های Claude از طریق تقطیر غیرقانونی اجرا کرده‌اند. این کمپین‌ها بیش از ۱۶ میلیون مبادله با Claude را از طریق تقریباً ۲۴,۰۰۰ حساب جعلی انجام داده‌اند که شرایط خدمات و محدودیت‌های دسترسی منطقه‌ای Anthropic را نقض می‌کند.

تقطیر یک تکنیک قانونی است که در آن یک مدل کوچکتر بر روی خروجی‌های یک مدل قوی‌تر آموزش داده می‌شود. آزمایشگاه‌های پیشرو به طور منظم مدل‌های خود را تقطیر می‌کنند تا نسخه‌های ارزان‌تری ایجاد کنند. اما هنگامی که رقبا از تقطیر بدون مجوز استفاده می‌کنند، قابلیت‌های قدرتمندی را با کسری از هزینه و زمان لازم برای توسعه مستقل به دست می‌آورند.

این حملات ویژگی‌های متمایز کننده Claude را هدف قرار دادند: استدلال عاملی، استفاده از ابزار، و کدنویسی — همان قابلیت‌هایی که به Claude Opus 4.6 و Claude Sonnet 4.6 قدرت می‌دهند.

مقیاس و اهداف هر کمپین

آزمایشگاه	مبادلات	اهداف اصلی
DeepSeek	۱۵۰,۰۰۰+	استدلال، درجه‌بندی مدل پاداش، راه‌حل‌های دور زدن سانسور
Moonshot AI	۳.۴ میلیون+	استدلال عاملی، استفاده از ابزار، بینایی کامپیوتر
MiniMax	۱۳ میلیون+	کدنویسی عاملی، هماهنگی ابزار

DeepSeek از یک تکنیک قابل توجه استفاده کرد: پرامپت‌هایی که از Claude می‌خواستند استدلال داخلی خود را گام به گام بیان کند، که به طور موثر داده‌های آموزشی زنجیره تفکر را در مقیاس بزرگ تولید می‌کرد. آن‌ها همچنین از Claude برای تولید جایگزین‌های ایمن در برابر سانسور برای پرسش‌های سیاسی حساس استفاده کردند — احتمالاً برای آموزش مدل‌های خود به منظور هدایت مکالمات از موضوعات سانسور شده. Anthropic این حساب‌ها را به محققان خاصی در این آزمایشگاه ردیابی کرد.

Moonshot AI (مدل‌های Kimi) صدها حساب جعلی را در مسیرهای دسترسی متعدد به کار گرفت. در فاز بعدی، Moonshot به یک رویکرد هدفمندتر تغییر جهت داد و تلاش کرد تا ردیابی‌های استدلالی Claude را استخراج و بازسازی کند.

MiniMax بزرگترین کمپین را با بیش از ۱۳ میلیون مبادله اجرا کرد. Anthropic این کمپین را در حالی که هنوز فعال بود — قبل از اینکه MiniMax مدلی را که در حال آموزش آن بود منتشر کند — شناسایی کرد. هنگامی که Anthropic یک مدل جدید را در طول کمپین فعال منتشر کرد، MiniMax ظرف ۲۴ ساعت تغییر جهت داد و تقریباً نیمی از ترافیک خود را برای ثبت آخرین قابلیت‌ها منحرف کرد.

چگونه متقاضیان تقطیر محدودیت‌های دسترسی را دور می‌زنند

Anthropic دسترسی تجاری به Claude را در چین به دلایل امنیت ملی ارائه نمی‌دهد. آزمایشگاه‌ها این محدودیت را از طریق خدمات پروکسی تجاری که دسترسی به مدل‌های پیشرو را در مقیاس وسیع می‌فروشند، دور زدند.

این سرویس‌ها آنچه Anthropic "معماری‌های خوشه هیدرا" می‌نامد را اجرا می‌کنند: شبکه‌های گسترده‌ای از حساب‌های جعلی که ترافیک را در سراسر API و پلتفرم‌های ابری شخص ثالث توزیع می‌کنند. هنگامی که یک حساب مسدود می‌شود، یک حساب جدید جای آن را می‌گیرد. یکی از شبکه‌های پروکسی بیش از ۲۰,۰۰۰ حساب جعلی را به طور همزمان مدیریت می‌کرد و ترافیک تقطیر را با درخواست‌های مشتریان بی‌ربط ترکیب می‌کرد تا شناسایی را دشوارتر سازد.

آنچه تقطیر را از استفاده عادی متمایز می‌کند، الگو است. یک پرامپت واحد ممکن است بی‌ضرر به نظر برسد، اما زمانی که ده‌ها هزار بار در صدها حساب هماهنگ‌شده با هدف قرار دادن همان قابلیت محدود، تغییراتی از آن وارد می‌شود، الگو واضح می‌شود.

پیامدهای امنیت ملی

مدل‌های تقطیر شده غیرقانونی فاقد حفاظت‌های ایمنی هستند که شرکت‌های آمریکایی در سیستم‌های پیشرو خود تعبیه می‌کنند. این حفاظت‌ها از استفاده هوش مصنوعی برای توسعه سلاح‌های بیولوژیکی، انجام عملیات سایبری تهاجمی، یا امکان نظارت گسترده جلوگیری می‌کنند.

مدل‌هایی که از طریق تقطیر غیرقانونی ساخته شده‌اند، بعید است این حفاظت‌ها را حفظ کنند. آزمایشگاه‌های خارجی می‌توانند قابلیت‌های بدون حفاظت را به سیستم‌های نظامی، اطلاعاتی و نظارتی تغذیه کنند. اگر مدل‌های تقطیر شده متن‌باز شوند، قابلیت‌های خطرناک آزادانه فراتر از کنترل هر دولتی پخش می‌شوند.

حملات تقطیر همچنین کنترل‌های صادراتی ایالات متحده را تضعیف می‌کند. بدون آگاهی از این حملات، پیشرفت‌های ظاهراً سریع این آزمایشگاه‌ها می‌تواند به اشتباه به عنوان شواهدی بر بی‌اثری کنترل‌های صادراتی تفسیر شود. در واقعیت، این پیشرفت‌ها به قابلیت‌های استخراج شده از مدل‌های آمریکایی بستگی دارد، و اجرای استخراج در مقیاس بزرگ به تراشه‌های پیشرفته‌ای نیاز دارد که کنترل‌های صادراتی برای محدود کردن آن‌ها طراحی شده‌اند.

اقدامات متقابل Anthropic

Anthropic چندین دفاع را در برابر حملات تقطیر مستقر می‌کند:

دسته‌بندی‌کننده‌های شناسایی: سیستم‌های اثرانگشت رفتاری که الگوهای تقطیر را در ترافیک API شناسایی می‌کنند، از جمله استخراج زنجیره تفکر که برای ساخت داده‌های آموزشی استدلال استفاده می‌شود.
اشتراک‌گذاری اطلاعات: شاخص‌های فنی با سایر آزمایشگاه‌های هوش مصنوعی، ارائه‌دهندگان ابری و مقامات مربوطه به اشتراک گذاشته می‌شوند تا تصویری جامع از چشم‌انداز تقطیر ارائه دهند.
کنترل‌های دسترسی: تأیید هویت تقویت‌شده برای حساب‌های آموزشی، برنامه‌های تحقیقات امنیتی، و سازمان‌های استارتاپی — مسیرهایی که بیشترین بهره‌برداری از آنها شده است.
حفاظت‌های سطح مدل: اقدامات متقابل در سطح محصول، API، و مدل که برای کاهش اثربخشی خروجی برای تقطیر غیرقانونی طراحی شده‌اند بدون اینکه استفاده قانونی را کاهش دهند.

Anthropic همچنین این یافته‌ها را به پشتیبانی قبلی خود از قابلیت‌های امنیت کد Claude برای مدافعان مرتبط کرده است، که بخشی از یک استراتژی گسترده‌تر برای اطمینان از حفاظت از قابلیت‌های هوش مصنوعی پیشرو است.

پاسخ گسترده صنعت مورد نیاز است

Anthropic تأکید می‌کند که هیچ شرکتی به تنهایی نمی‌تواند حملات تقطیر را حل کند. این کمپین‌ها از خدمات پروکسی تجاری، پلتفرم‌های ابری شخص ثالث، و شکاف‌ها در تأیید حساب کاربری که کل اکوسیستم هوش مصنوعی را در بر می‌گیرد، بهره‌برداری می‌کنند.

افزایش شدت و پیچیدگی این کمپین‌ها، پنجره زمانی برای اقدام را محدود می‌کند. Anthropic مشاهده کرده است که تقطیرکنندگان به سرعت سازگار می‌شوند: وقتی مدل‌های جدید منتشر می‌شوند، تلاش‌های استخراج ظرف چند ساعت تغییر جهت می‌دهند. وقتی حساب‌ها مسدود می‌شوند، شبکه‌های پروکسی بلافاصله آن‌ها را از طریق معماری‌های خوشه هیدرا بدون نقطه ضعف واحد جایگزین می‌کنند.

مقابله با این تهدید نیازمند اقدام هماهنگ بین شرکت‌های هوش مصنوعی، ارائه‌دهندگان ابری و سیاست‌گذاران است. Anthropic یافته‌های خود را منتشر کرد تا شواهد را برای همه کسانی که در حفاظت از قابلیت‌های هوش مصنوعی پیشرو از استخراج غیرمجاز سهیم هستند، در دسترس قرار دهد. این شرکت خواستار استانداردهای صنعتی در زمینه تأیید حساب کاربری، چارچوب‌های مشترک اطلاعات تهدید، و پشتیبانی سیاستی برای اجرای قوانین علیه تقطیر غیرقانونی در مقیاس بزرگ است.

منبع اصلی

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

سوالات متداول

حملات تقطیر هوش مصنوعی چیست؟

حملات تقطیر هوش مصنوعی شامل آموزش یک مدل با قابلیت کمتر بر روی خروجی‌های یک مدل قوی‌تر بدون مجوز است. رقبا حجم عظیمی از پرامپت‌های با دقت طراحی‌شده را تولید می‌کنند تا قابلیت‌های خاصی را از یک مدل پیشرو استخراج کرده و سپس از پاسخ‌ها برای آموزش سیستم‌های خود استفاده کنند. Anthropic بیش از ۱۶ میلیون مبادله غیرقانونی را در تقریباً ۲۴,۰۰۰ حساب جعلی که توسط DeepSeek، Moonshot و MiniMax برای استخراج قابلیت‌های Claude استفاده شده بود، شناسایی کرد.

کدام شرکت‌ها قابلیت‌های Claude را تقطیر کردند؟

Anthropic سه آزمایشگاه هوش مصنوعی چینی را شناسایی کرد که کمپین‌های تقطیر در مقیاس صنعتی را انجام می‌دادند: DeepSeek (بیش از ۱۵۰,۰۰۰ مبادله با هدف استدلال و راه‌حل‌های دور زدن سانسور)، Moonshot AI (بیش از ۳.۴ میلیون مبادله با هدف استدلال عاملی و استفاده از ابزار)، و MiniMax (بیش از ۱۳ میلیون مبادله با هدف کدنویسی عاملی و هماهنگی ابزار).

چرا حملات تقطیر یک خطر امنیت ملی است؟

مدل‌های تقطیر شده غیرقانونی فاقد حفاظت‌های ایمنی هستند که شرکت‌های آمریکایی مانند Anthropic در سیستم‌های خود تعبیه می‌کنند. این مدل‌های بدون حفاظت می‌توانند برای عملیات سایبری تهاجمی، کمپین‌های اطلاعات نادرست، نظارت گسترده، و حتی پشتیبانی از توسعه سلاح‌های بیولوژیکی مستقر شوند. اگر مدل‌های تقطیر شده متن‌باز شوند، قابلیت‌های خطرناک فراتر از کنترل هر دولتی پخش می‌شوند و کنترل‌های صادراتی طراحی‌شده برای حفظ برتری هوش مصنوعی آمریکا را تضعیف می‌کنند.

DeepSeek، Moonshot و MiniMax چگونه به Claude دسترسی پیدا کردند؟

این آزمایشگاه‌ها محدودیت‌های دسترسی منطقه‌ای Anthropic را با استفاده از خدمات پروکسی تجاری که دسترسی به API Claude را در مقیاس بزرگ می‌فروشند، دور زدند. این سرویس‌ها از معماری‌های خوشه هیدرا با شبکه‌های گسترده‌ای از حساب‌های جعلی که در API Anthropic و پلتفرم‌های ابری شخص ثالث توزیع شده‌اند، استفاده می‌کنند. یکی از شبکه‌های پروکسی بیش از ۲۰,۰۰۰ حساب جعلی را به طور همزمان مدیریت می‌کرد و ترافیک تقطیر را با درخواست‌های قانونی ترکیب می‌کرد تا از شناسایی جلوگیری کند.

Anthropic چگونه به حملات تقطیر پاسخ می‌دهد؟

Anthropic در حال استقرار چندین اقدام متقابل است: دسته‌بندی‌کننده‌های اثرانگشت رفتاری برای شناسایی الگوهای تقطیر در ترافیک API، اشتراک‌گذاری اطلاعات با سایر آزمایشگاه‌های هوش مصنوعی و ارائه‌دهندگان ابری، تأیید حساب کاربری تقویت‌شده، و حفاظت‌های سطح مدل که اثربخشی خروجی را برای تقطیر غیرقانونی کاهش می‌دهند بدون اینکه به خدمات کاربران قانونی لطمه بزنند. Anthropic همچنین خواستار پاسخ‌های هماهنگ صنعت و سیاست‌گذاران است.

DeepSeek به طور خاص چه چیزی را از Claude استخراج کرد؟

DeepSeek قابلیت‌های استدلالی Claude، وظایف درجه‌بندی مبتنی بر ارزیابی (که Claude را به عنوان یک مدل پاداش برای یادگیری تقویتی عمل می‌کند) و جایگزین‌های ایمن در برابر سانسور برای پرسش‌های سیاسی حساس را هدف قرار داد. آن‌ها از تکنیک‌هایی استفاده کردند که از Claude می‌خواستند استدلال داخلی خود را گام به گام بیان کند و داده‌های آموزشی زنجیره تفکر را در مقیاس بزرگ تولید کنند. Anthropic این حساب‌ها را به محققان خاصی در DeepSeek ردیابی کرد.

به‌روز بمانید

آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.

اشتراک‌گذاری