Anthropic раскрывает атаки дистилляции со стороны DeepSeek и MiniMax

Anthropic раскрывает широкомасштабные кампании дистилляции

Anthropic опубликовала доказательства того, что три лаборатории ИИ — DeepSeek, Moonshot AI и MiniMax — проводили скоординированные кампании по извлечению возможностей Claude посредством незаконной дистилляции. Кампании сгенерировали более 16 миллионов обменов с Claude через примерно 24 000 мошеннических аккаунтов, нарушая условия предоставления услуг Anthropic и региональные ограничения доступа.

Дистилляция — это законный метод, при котором меньшая модель обучается на результатах более сильной. Передовые лаборатории регулярно дистиллируют свои собственные модели для создания более дешевых версий. Но когда конкуренты используют дистилляцию без разрешения, они приобретают мощные возможности за малую долю стоимости и времени, необходимых для независимой разработки.

Атаки были направлены на наиболее отличительные особенности Claude: агентные рассуждения, использование инструментов и кодирование — те же возможности, которые лежат в основе Claude Opus 4.6 и Claude Sonnet 4.6.

Масштаб и цели каждой кампании

Лаборатория	Обмены	Основные цели
DeepSeek	150,000+	Рассуждения, оценка по рубрикам (reward-model), обход цензуры
Moonshot AI	3,4 миллиона+	Агентные рассуждения, использование инструментов, компьютерное зрение
MiniMax	13 миллионов+	Агентное кодирование, оркестрация инструментов

DeepSeek использовала примечательную технику: запросы, которые просили Claude шаг за шагом излагать свои внутренние рассуждения, эффективно генерируя данные для обучения «цепочки рассуждений» в больших масштабах. Они также использовали Claude для создания безопасных для цензуры альтернатив для политически чувствительных запросов — вероятно, для обучения своих собственных моделей уводить разговоры от цензурированных тем. Anthropic отследила эти аккаунты до конкретных исследователей в лаборатории.

Moonshot AI (модели Kimi) использовала сотни мошеннических аккаунтов через несколько каналов доступа. На более позднем этапе Moonshot перешла к более целенаправленному подходу, пытаясь извлечь и реконструировать следы рассуждений Claude.

MiniMax провела крупнейшую кампанию с более чем 13 миллионами обменов. Anthropic обнаружила эту кампанию, когда она еще была активна — до того, как MiniMax выпустила модель, которую она обучала. Когда Anthropic выпустила новую модель во время активной кампании, MiniMax изменила свою тактику в течение 24 часов, перенаправив почти половину своего трафика для захвата новейших возможностей.

Как дистилляторы обходят ограничения доступа

Anthropic не предоставляет коммерческий доступ к Claude в Китае по соображениям национальной безопасности. Лаборатории обошли это ограничение, используя коммерческие прокси-сервисы, которые перепродают доступ к передовым моделям в больших масштабах.

Эти сервисы используют то, что Anthropic называет архитектурами «гидра-кластеров»: обширные сети мошеннических аккаунтов, которые распределяют трафик по API и сторонним облачным платформам. Когда один аккаунт блокируется, новый заменяет его. Одна прокси-сеть одновременно управляла более чем 20 000 мошеннических аккаунтов, смешивая трафик дистилляции с несвязанными запросами клиентов, чтобы затруднить обнаружение.

Что отличает дистилляцию от обычного использования, так это паттерн. Один запрос может показаться безобидным, но когда десятки тысяч вариаций поступают через сотни скоординированных аккаунтов, все они нацелены на одну и ту же узкую возможность, паттерн становится очевидным.

Последствия для национальной безопасности

Незаконно дистиллированные модели лишены защитных механизмов, которые американские компании встраивают в передовые системы. Эти механизмы предотвращают использование ИИ для разработки биологического оружия, проведения наступательных киберопераций или обеспечения массового наблюдения.

Модели, созданные путем незаконной дистилляции, вряд ли сохранят эти защиты. Иностранные лаборатории могут внедрять незащищенные возможности в военные, разведывательные и наблюдательные системы. Если дистиллированные модели становятся открытыми, опасные возможности свободно распространяются за пределы контроля любого правительства.

Атаки дистилляции также подрывают экспортный контроль США. Без понимания этих атак, кажущиеся быстрые достижения этих лабораторий могут быть неверно истолкованы как свидетельство неэффективности экспортного контроля. В действительности, достижения зависят от возможностей, извлеченных из американских моделей, а выполнение извлечения в больших масштабах требует передовых чипов, на ограничение которых направлен экспортный контроль.

Контрмеры Anthropic

Anthropic развертывает несколько защит от атак дистилляции:

Классификаторы обнаружения: Системы поведенческой идентификации, которые выявляют паттерны дистилляции в API-трафике, включая выявление «цепочки рассуждений», используемой для создания обучающих данных по рассуждениям
Обмен разведывательной информацией: Технические индикаторы, которыми обмениваются с другими лабораториями ИИ, облачными провайдерами и соответствующими органами для получения целостной картины ландшафта дистилляции
Контроль доступа: Усиленная верификация для образовательных аккаунтов, программ исследований безопасности и стартап-организаций — наиболее часто используемых путей эксплуатации
Защитные меры на уровне модели: Контрмеры на уровне продукта, API и модели, разработанные для снижения эффективности вывода при незаконной дистилляции без ухудшения легитимного использования

Anthropic также связала эти выводы со своей предыдущей поддержкой возможностей Claude Code Security для защитников, что является частью более широкой стратегии по обеспечению защиты передовых возможностей ИИ.

Необходим общеотраслевой ответ

Anthropic подчеркивает, что ни одна компания не может решить проблему атак дистилляции в одиночку. Кампании используют коммерческие прокси-сервисы, сторонние облачные платформы и пробелы в верификации аккаунтов, охватывающие всю экосистему ИИ.

Растущая интенсивность и изощренность этих кампаний сужают окно для действия. Anthropic заметила, что дистилляторы быстро адаптируются: при выпуске новых моделей усилия по извлечению меняют направление в течение нескольких часов. Когда аккаунты блокируются, прокси-сети немедленно заменяют их через архитектуры «гидра-кластеров» без единой точки отказа.

Устранение угрозы требует скоординированных действий между компаниями ИИ, облачными провайдерами и политиками. Anthropic опубликовала свои выводы, чтобы сделать доказательства доступными для всех, кто заинтересован в защите передовых возможностей ИИ от несанкционированного извлечения. Компания призывает к общеотраслевым стандартам верификации аккаунтов, общим структурам обмена информацией об угрозах и политической поддержке мер по борьбе с незаконной дистилляцией в больших масштабах.

Первоисточник

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

Часто задаваемые вопросы

Что такое атаки дистилляции ИИ?

Атаки дистилляции ИИ включают обучение менее мощной модели на результатах более сильной без разрешения. Конкуренты генерируют огромные объемы тщательно составленных запросов, чтобы извлечь конкретные возможности из передовой модели, а затем используют ответы для обучения своих собственных систем. Anthropic выявила более 16 миллионов незаконных обменов через примерно 24 000 мошеннических аккаунтов, используемых DeepSeek, Moonshot и MiniMax для извлечения возможностей Claude.

Какие компании дистиллировали возможности Claude?

Anthropic выявила три китайские лаборатории ИИ, проводившие широкомасштабные кампании дистилляции: DeepSeek (более 150 000 обменов, направленных на рассуждения и обход цензуры), Moonshot AI (более 3,4 миллиона обменов, направленных на агентные рассуждения и использование инструментов) и MiniMax (более 13 миллионов обменов, направленных на агентное кодирование и оркестрацию инструментов).

Почему атаки дистилляции представляют угрозу национальной безопасности?

Незаконно дистиллированные модели лишены защитных механизмов, которые американские компании, такие как Anthropic, встраивают в свои системы. Эти незащищенные модели могут быть развернуты для наступательных киберопераций, дезинформационных кампаний, массового наблюдения и даже поддержки разработки биологического оружия. Если дистиллированные модели становятся открытыми, опасные возможности распространяются за пределы контроля любого правительства, подрывая экспортный контроль, предназначенный для поддержания превосходства Америки в ИИ.

Как DeepSeek, Moonshot и MiniMax получили доступ к Claude?

Лаборатории обошли региональные ограничения доступа Anthropic, используя коммерческие прокси-сервисы, которые перепродают доступ к API Claude в больших масштабах. Эти сервисы используют архитектуры «гидра-кластеров» с обширными сетями мошеннических аккаунтов, распределенных по API Anthropic и сторонним облачным платформам. Одна прокси-сеть одновременно управляла более чем 20 000 мошеннических аккаунтов, смешивая трафик дистилляции с легитимными запросами, чтобы избежать обнаружения.

Как Anthropic реагирует на атаки дистилляции?

Anthropic развертывает несколько контрмер: классификаторы поведенческой идентификации для обнаружения паттернов дистилляции в API-трафике, обмен разведывательной информацией с другими лабораториями ИИ и облачными провайдерами, усиленную верификацию аккаунтов и защиту на уровне моделей, которые снижают эффективность вывода для незаконной дистилляции без ухудшения обслуживания для легитимных пользователей. Anthropic также призывает к скоординированным отраслевым и политическим ответам.

Что именно DeepSeek извлекла из Claude?

DeepSeek нацелилась на возможности Claude по рассуждению, задачи оценки на основе рубрик (заставляя Claude функционировать как модель вознаграждения для обучения с подкреплением) и безопасные для цензуры альтернативы для политически чувствительных запросов. Они использовали методы, которые просили Claude излагать свои внутренние рассуждения шаг за шагом, генерируя таким образом данные для обучения "цепочки рассуждений" в больших масштабах. Anthropic отследила эти аккаунты до конкретных исследователей из DeepSeek.

Будьте в курсе

Получайте последние новости ИИ на почту.