Anthropic викриває атаки дистиляції з боку DeepSeek та MiniMax

Anthropic виявляє масштабні кампанії дистиляції

Anthropic опублікував докази того, що три лабораторії ШІ — DeepSeek, Moonshot AI та MiniMax — проводили скоординовані кампанії з вилучення можливостей Claude шляхом незаконної дистиляції. Кампанії згенерували понад 16 мільйонів обмінів з Claude через приблизно 24 000 шахрайських акаунтів, порушуючи умови використання Anthropic та регіональні обмеження доступу.

Дистиляція — це легітимна техніка, за якої менша модель навчається на вихідних даних сильнішої. Передові лабораторії регулярно дистилюють власні моделі, щоб створити дешевші версії. Але коли конкуренти використовують дистиляцію без дозволу, вони отримують потужні можливості за незначну частину вартості та часу, необхідного для незалежної розробки.

Атаки були спрямовані на найбільш відмінні риси Claude: агентне міркування, використання інструментів та кодування — ті ж самі можливості, які живлять Claude Opus 4.6 та Claude Sonnet 4.6.

Масштаби та цілі кожної кампанії

Лабораторія	Обміни	Основні цілі
DeepSeek	150 000+	Міркування, оцінювання моделі винагороди, обхід цензури
Moonshot AI	3,4 мільйона+	Агентне міркування, використання інструментів, комп'ютерний зір
MiniMax	13 мільйонів+	Агентне кодування, оркестрування інструментів

DeepSeek використовував помітну техніку: запити, які просили Claude крок за кроком формулювати свої внутрішні міркування, ефективно генеруючи навчальні дані "ланцюжка думок" у великих масштабах. Вони також використовували Claude для генерації безпечних альтернатив цензурі для політично чутливих запитів — ймовірно, для навчання власних моделей відводити розмови від цензурованих тем. Anthropic відстежив ці акаунти до конкретних дослідників у лабораторії.

Moonshot AI (моделі Kimi) використовував сотні шахрайських акаунтів через кілька шляхів доступу. На пізнішій стадії Moonshot перейшов до більш цілеспрямованого підходу, намагаючись вилучити та відтворити сліди міркувань Claude.

MiniMax провів найбільшу кампанію з понад 13 мільйонами обмінів. Anthropic виявив цю кампанію, коли вона ще була активною — до того, як MiniMax випустив модель, яку він навчав. Коли Anthropic випустив нову модель під час активної кампанії, MiniMax змінив свій підхід протягом 24 годин, перенаправивши майже половину свого трафіку, щоб захопити найновіші можливості.

Як дистилятори обходять обмеження доступу

Anthropic не пропонує комерційний доступ до Claude в Китаї з міркувань національної безпеки. Лабораторії обійшли це через комерційні проксі-сервіси, які перепродують доступ до передових моделей у великих масштабах.

Ці сервіси використовують те, що Anthropic називає "архітектурами кластерів-гідр": розгалужені мережі шахрайських акаунтів, які розподіляють трафік по API та сторонніх хмарних платформах. Коли один акаунт блокується, його замінює новий. Одна проксі-мережа одночасно керувала понад 20 000 шахрайських акаунтів, змішуючи трафік дистиляції з непов'язаними запитами клієнтів, щоб ускладнити виявлення.

Те, що відрізняє дистиляцію від звичайного використання, — це патерн. Одиночний запит може здатися нешкідливим, але коли варіації надходять десятки тисяч разів через сотні скоордованих акаунтів, всі вони націлені на одну й ту саму вузьку можливість, патерн стає очевидним.

Наслідки для національної безпеки

Незаконно дистильовані моделі не мають захисних механізмів, які американські компанії вбудовують у передові системи. Ці захисні механізми запобігають використанню ШІ для розробки біологічної зброї, проведення наступальних кібероперацій або забезпечення масового спостереження.

Моделі, створені шляхом незаконної дистиляції, навряд чи збережуть ці захисні механізми. Іноземні лабораторії можуть передавати незахищені можливості військовим, розвідувальним та наглядовим системам. Якщо дистильовані моделі стають відкритими, небезпечні можливості вільно поширюються поза контролем будь-якого уряду.

Атаки дистиляції також підривають експортний контроль США. Без розуміння цих атак, очевидні швидкі досягнення цих лабораторій можуть бути неправильно інтерпретовані як доказ неефективності експортного контролю. Насправді, досягнення залежать від можливостей, витягнутих з американських моделей, а здійснення вилучення у великих масштабах вимагає передових чіпів, на обмеження яких спрямований експортний контроль.

Контрзаходи Anthropic

Anthropic розгортає численні засоби захисту від атак дистиляції:

Класифікатори виявлення: Системи поведінкового відбитка, які ідентифікують патерни дистиляції в API-трафіку, включаючи виявлення "ланцюжка думок", що використовується для створення навчальних даних для міркування.
Обмін розвідувальними даними: Технічні показники, якими обмінюються з іншими лабораторіями ШІ, хмарними провайдерами та відповідними органами для отримання цілісної картини ландшафту дистиляції.
Контроль доступу: Посилена перевірка для освітніх акаунтів, програм досліджень безпеки та стартап-організацій — шляхів, які найчастіше використовуються.
Захисні механізми на рівні моделі: Контрзаходи на рівні продукту, API та моделі, розроблені для зниження ефективності вихідних даних для незаконної дистиляції без погіршення легітимного використання.

Anthropic також пов'язав ці висновки зі своєю попередньою підтримкою можливостей Claude Code Security для захисників, що є частиною ширшої стратегії забезпечення захисту передових можливостей ШІ.

Потрібна загальногалузева відповідь

Anthropic підкреслює, що жодна компанія не може самотужки вирішити проблеми атак дистиляції. Кампанії використовують комерційні проксі-сервіси, сторонні хмарні платформи та прогалини у перевірці акаунтів, що охоплюють усю екосистему ШІ.

Зростаюча інтенсивність та складність цих кампаній звужує вікно для дій. Anthropic зауважив, що дистилятори швидко адаптуються: коли випускаються нові моделі, зусилля з вилучення змінюються протягом годин. Коли акаунти блокуються, проксі-мережі негайно замінюють їх через архітектури кластерів-гідр без єдиної точки відмови.

Усунення загрози вимагає скоординованих дій між компаніями ШІ, хмарними провайдерами та політиками. Anthropic опублікував свої висновки, щоб зробити докази доступними для всіх, хто зацікавлений у захисті передових можливостей ШІ від несанкціонованого вилучення. Компанія закликає до загальногалузевих стандартів перевірки акаунтів, спільних рамок обміну розвідувальними даними про загрози та політичної підтримки для забезпечення виконання законів проти незаконної дистиляції у великих масштабах.

Першоджерело

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

Поширені запитання

Що таке атаки дистиляції ШІ?

Атаки дистиляції ШІ передбачають несанкціоноване навчання менш потужної моделі на вихідних даних сильнішої. Конкуренти генерують величезні обсяги ретельно розроблених запитів, щоб витягти конкретні можливості з передової моделі, а потім використовують отримані відповіді для навчання власних систем. Anthropic ідентифікував понад 16 мільйонів незаконних обмінів через приблизно 24 000 шахрайських акаунтів, які використовувалися DeepSeek, Moonshot та MiniMax для вилучення можливостей Claude.

Які компанії дистилювали можливості Claude?

Anthropic ідентифікував три китайські лабораторії ШІ, які проводили масштабні кампанії дистиляції: DeepSeek (понад 150 000 обмінів, спрямованих на міркування та обхід цензури), Moonshot AI (понад 3,4 мільйона обмінів, спрямованих на агентне міркування та використання інструментів) та MiniMax (понад 13 мільйонів обмінів, спрямованих на агентне кодування та оркестрування інструментів).

Чому атаки дистиляції є ризиком для національної безпеки?

Незаконно дистильовані моделі не мають захисних механізмів, які американські компанії, як Anthropic, вбудовують у свої системи. Ці незахищені моделі можуть бути використані для наступальних кібероперацій, кампаній з дезінформації, масового спостереження та навіть підтримки розробки біологічної зброї. Якщо дистильовані моделі стають відкритими, небезпечні можливості поширюються поза контролем будь-якого уряду, підриваючи експортний контроль, розроблений для збереження переваги Америки в ШІ.

Як DeepSeek, Moonshot та MiniMax отримали доступ до Claude?

Лабораторії обійшли регіональні обмеження доступу Anthropic, використовуючи комерційні проксі-сервіси, які перепродують доступ до API Claude у великих масштабах. Ці сервіси працюють за архітектурами кластерів-гідр з розгалуженими мережами шахрайських акаунтів, розподілених по API Anthropic та сторонніх хмарних платформах. Одна проксі-мережа одночасно керувала понад 20 000 шахрайських акаунтів, змішуючи трафік дистиляції з легітимними запитами, щоб уникнути виявлення.

Як Anthropic реагує на атаки дистиляції?

Anthropic розгортає численні контрзаходи: класифікатори поведінкового відбитка для виявлення патернів дистиляції в API-трафіку, обмін розвідувальними даними з іншими лабораторіями ШІ та хмарними провайдерами, посилену перевірку акаунтів та захисні механізми на рівні моделі, які знижують ефективність вихідних даних для незаконної дистиляції, не погіршуючи обслуговування для легітимних користувачів. Anthropic також закликає до скоординованих галузевих та політичних відповідей.

Що саме DeepSeek вилучив з Claude?

DeepSeek націлювався на можливості міркування Claude, завдання оцінювання за рубриками (змушуючи Claude функціонувати як модель винагороди для навчання з підкріпленням) та безпечні альтернативи цензурі для політично чутливих запитів. Вони використовували техніки, які просили Claude крок за кроком формулювати свої внутрішні міркування, генеруючи навчальні дані "ланцюжка думок" у великих масштабах. Anthropic відстежив ці акаунти до конкретних дослідників у DeepSeek.

Будьте в курсі

Отримуйте найсвіжіші новини ШІ на пошту.

Поділитися