Anthropic виявляє масштабні кампанії дистиляції
Anthropic опублікував докази того, що три лабораторії ШІ — DeepSeek, Moonshot AI та MiniMax — проводили скоординовані кампанії з вилучення можливостей Claude шляхом незаконної дистиляції. Кампанії згенерували понад 16 мільйонів обмінів з Claude через приблизно 24 000 шахрайських акаунтів, порушуючи умови використання Anthropic та регіональні обмеження доступу.
Дистиляція — це легітимна техніка, за якої менша модель навчається на вихідних даних сильнішої. Передові лабораторії регулярно дистилюють власні моделі, щоб створити дешевші версії. Але коли конкуренти використовують дистиляцію без дозволу, вони отримують потужні можливості за незначну частину вартості та часу, необхідного для незалежної розробки.
Атаки були спрямовані на найбільш відмінні риси Claude: агентне міркування, використання інструментів та кодування — ті ж самі можливості, які живлять Claude Opus 4.6 та Claude Sonnet 4.6.
Масштаби та цілі кожної кампанії
| Лабораторія | Обміни | Основні цілі |
|---|---|---|
| DeepSeek | 150 000+ | Міркування, оцінювання моделі винагороди, обхід цензури |
| Moonshot AI | 3,4 мільйона+ | Агентне міркування, використання інструментів, комп'ютерний зір |
| MiniMax | 13 мільйонів+ | Агентне кодування, оркестрування інструментів |
DeepSeek використовував помітну техніку: запити, які просили Claude крок за кроком формулювати свої внутрішні міркування, ефективно генеруючи навчальні дані "ланцюжка думок" у великих масштабах. Вони також використовували Claude для генерації безпечних альтернатив цензурі для політично чутливих запитів — ймовірно, для навчання власних моделей відводити розмови від цензурованих тем. Anthropic відстежив ці акаунти до конкретних дослідників у лабораторії.
Moonshot AI (моделі Kimi) використовував сотні шахрайських акаунтів через кілька шляхів доступу. На пізнішій стадії Moonshot перейшов до більш цілеспрямованого підходу, намагаючись вилучити та відтворити сліди міркувань Claude.
MiniMax провів найбільшу кампанію з понад 13 мільйонами обмінів. Anthropic виявив цю кампанію, коли вона ще була активною — до того, як MiniMax випустив модель, яку він навчав. Коли Anthropic випустив нову модель під час активної кампанії, MiniMax змінив свій підхід протягом 24 годин, перенаправивши майже половину свого трафіку, щоб захопити найновіші можливості.
Як дистилятори обходять обмеження доступу
Anthropic не пропонує комерційний доступ до Claude в Китаї з міркувань національної безпеки. Лабораторії обійшли це через комерційні проксі-сервіси, які перепродують доступ до передових моделей у великих масштабах.
Ці сервіси використовують те, що Anthropic називає "архітектурами кластерів-гідр": розгалужені мережі шахрайських акаунтів, які розподіляють трафік по API та сторонніх хмарних платформах. Коли один акаунт блокується, його замінює новий. Одна проксі-мережа одночасно керувала понад 20 000 шахрайських акаунтів, змішуючи трафік дистиляції з непов'язаними запитами клієнтів, щоб ускладнити виявлення.
Те, що відрізняє дистиляцію від звичайного використання, — це патерн. Одиночний запит може здатися нешкідливим, але коли варіації надходять десятки тисяч разів через сотні скоордованих акаунтів, всі вони націлені на одну й ту саму вузьку можливість, патерн стає очевидним.
Наслідки для національної безпеки
Незаконно дистильовані моделі не мають захисних механізмів, які американські компанії вбудовують у передові системи. Ці захисні механізми запобігають використанню ШІ для розробки біологічної зброї, проведення наступальних кібероперацій або забезпечення масового спостереження.
Моделі, створені шляхом незаконної дистиляції, навряд чи збережуть ці захисні механізми. Іноземні лабораторії можуть передавати незахищені можливості військовим, розвідувальним та наглядовим системам. Якщо дистильовані моделі стають відкритими, небезпечні можливості вільно поширюються поза контролем будь-якого уряду.
Атаки дистиляції також підривають експортний контроль США. Без розуміння цих атак, очевидні швидкі досягнення цих лабораторій можуть бути неправильно інтерпретовані як доказ неефективності експортного контролю. Насправді, досягнення залежать від можливостей, витягнутих з американських моделей, а здійснення вилучення у великих масштабах вимагає передових чіпів, на обмеження яких спрямований експортний контроль.
Контрзаходи Anthropic
Anthropic розгортає численні засоби захисту від атак дистиляції:
- Класифікатори виявлення: Системи поведінкового відбитка, які ідентифікують патерни дистиляції в API-трафіку, включаючи виявлення "ланцюжка думок", що використовується для створення навчальних даних для міркування.
- Обмін розвідувальними даними: Технічні показники, якими обмінюються з іншими лабораторіями ШІ, хмарними провайдерами та відповідними органами для отримання цілісної картини ландшафту дистиляції.
- Контроль доступу: Посилена перевірка для освітніх акаунтів, програм досліджень безпеки та стартап-організацій — шляхів, які найчастіше використовуються.
- Захисні механізми на рівні моделі: Контрзаходи на рівні продукту, API та моделі, розроблені для зниження ефективності вихідних даних для незаконної дистиляції без погіршення легітимного використання.
Anthropic також пов'язав ці висновки зі своєю попередньою підтримкою можливостей Claude Code Security для захисників, що є частиною ширшої стратегії забезпечення захисту передових можливостей ШІ.
Потрібна загальногалузева відповідь
Anthropic підкреслює, що жодна компанія не може самотужки вирішити проблеми атак дистиляції. Кампанії використовують комерційні проксі-сервіси, сторонні хмарні платформи та прогалини у перевірці акаунтів, що охоплюють усю екосистему ШІ.
Зростаюча інтенсивність та складність цих кампаній звужує вікно для дій. Anthropic зауважив, що дистилятори швидко адаптуються: коли випускаються нові моделі, зусилля з вилучення змінюються протягом годин. Коли акаунти блокуються, проксі-мережі негайно замінюють їх через архітектури кластерів-гідр без єдиної точки відмови.
Усунення загрози вимагає скоординованих дій між компаніями ШІ, хмарними провайдерами та політиками. Anthropic опублікував свої висновки, щоб зробити докази доступними для всіх, хто зацікавлений у захисті передових можливостей ШІ від несанкціонованого вилучення. Компанія закликає до загальногалузевих стандартів перевірки акаунтів, спільних рамок обміну розвідувальними даними про загрози та політичної підтримки для забезпечення виконання законів проти незаконної дистиляції у великих масштабах.
Поширені запитання
Що таке атаки дистиляції ШІ?
Які компанії дистилювали можливості Claude?
Чому атаки дистиляції є ризиком для національної безпеки?
Як DeepSeek, Moonshot та MiniMax отримали доступ до Claude?
Як Anthropic реагує на атаки дистиляції?
Що саме DeepSeek вилучив з Claude?
Будьте в курсі
Отримуйте найсвіжіші новини ШІ на пошту.
