Anthropic раскрывает широкомасштабные кампании дистилляции
Anthropic опубликовала доказательства того, что три лаборатории ИИ — DeepSeek, Moonshot AI и MiniMax — проводили скоординированные кампании по извлечению возможностей Claude посредством незаконной дистилляции. Кампании сгенерировали более 16 миллионов обменов с Claude через примерно 24 000 мошеннических аккаунтов, нарушая условия предоставления услуг Anthropic и региональные ограничения доступа.
Дистилляция — это законный метод, при котором меньшая модель обучается на результатах более сильной. Передовые лаборатории регулярно дистиллируют свои собственные модели для создания более дешевых версий. Но когда конкуренты используют дистилляцию без разрешения, они приобретают мощные возможности за малую долю стоимости и времени, необходимых для независимой разработки.
Атаки были направлены на наиболее отличительные особенности Claude: агентные рассуждения, использование инструментов и кодирование — те же возможности, которые лежат в основе Claude Opus 4.6 и Claude Sonnet 4.6.
Масштаб и цели каждой кампании
| Лаборатория | Обмены | Основные цели |
|---|---|---|
| DeepSeek | 150,000+ | Рассуждения, оценка по рубрикам (reward-model), обход цензуры |
| Moonshot AI | 3,4 миллиона+ | Агентные рассуждения, использование инструментов, компьютерное зрение |
| MiniMax | 13 миллионов+ | Агентное кодирование, оркестрация инструментов |
DeepSeek использовала примечательную технику: запросы, которые просили Claude шаг за шагом излагать свои внутренние рассуждения, эффективно генерируя данные для обучения «цепочки рассуждений» в больших масштабах. Они также использовали Claude для создания безопасных для цензуры альтернатив для политически чувствительных запросов — вероятно, для обучения своих собственных моделей уводить разговоры от цензурированных тем. Anthropic отследила эти аккаунты до конкретных исследователей в лаборатории.
Moonshot AI (модели Kimi) использовала сотни мошеннических аккаунтов через несколько каналов доступа. На более позднем этапе Moonshot перешла к более целенаправленному подходу, пытаясь извлечь и реконструировать следы рассуждений Claude.
MiniMax провела крупнейшую кампанию с более чем 13 миллионами обменов. Anthropic обнаружила эту кампанию, когда она еще была активна — до того, как MiniMax выпустила модель, которую она обучала. Когда Anthropic выпустила новую модель во время активной кампании, MiniMax изменила свою тактику в течение 24 часов, перенаправив почти половину своего трафика для захвата новейших возможностей.
Как дистилляторы обходят ограничения доступа
Anthropic не предоставляет коммерческий доступ к Claude в Китае по соображениям национальной безопасности. Лаборатории обошли это ограничение, используя коммерческие прокси-сервисы, которые перепродают доступ к передовым моделям в больших масштабах.
Эти сервисы используют то, что Anthropic называет архитектурами «гидра-кластеров»: обширные сети мошеннических аккаунтов, которые распределяют трафик по API и сторонним облачным платформам. Когда один аккаунт блокируется, новый заменяет его. Одна прокси-сеть одновременно управляла более чем 20 000 мошеннических аккаунтов, смешивая трафик дистилляции с несвязанными запросами клиентов, чтобы затруднить обнаружение.
Что отличает дистилляцию от обычного использования, так это паттерн. Один запрос может показаться безобидным, но когда десятки тысяч вариаций поступают через сотни скоординированных аккаунтов, все они нацелены на одну и ту же узкую возможность, паттерн становится очевидным.
Последствия для национальной безопасности
Незаконно дистиллированные модели лишены защитных механизмов, которые американские компании встраивают в передовые системы. Эти механизмы предотвращают использование ИИ для разработки биологического оружия, проведения наступательных киберопераций или обеспечения массового наблюдения.
Модели, созданные путем незаконной дистилляции, вряд ли сохранят эти защиты. Иностранные лаборатории могут внедрять незащищенные возможности в военные, разведывательные и наблюдательные системы. Если дистиллированные модели становятся открытыми, опасные возможности свободно распространяются за пределы контроля любого правительства.
Атаки дистилляции также подрывают экспортный контроль США. Без понимания этих атак, кажущиеся быстрые достижения этих лабораторий могут быть неверно истолкованы как свидетельство неэффективности экспортного контроля. В действительности, достижения зависят от возможностей, извлеченных из американских моделей, а выполнение извлечения в больших масштабах требует передовых чипов, на ограничение которых направлен экспортный контроль.
Контрмеры Anthropic
Anthropic развертывает несколько защит от атак дистилляции:
- Классификаторы обнаружения: Системы поведенческой идентификации, которые выявляют паттерны дистилляции в API-трафике, включая выявление «цепочки рассуждений», используемой для создания обучающих данных по рассуждениям
- Обмен разведывательной информацией: Технические индикаторы, которыми обмениваются с другими лабораториями ИИ, облачными провайдерами и соответствующими органами для получения целостной картины ландшафта дистилляции
- Контроль доступа: Усиленная верификация для образовательных аккаунтов, программ исследований безопасности и стартап-организаций — наиболее часто используемых путей эксплуатации
- Защитные меры на уровне модели: Контрмеры на уровне продукта, API и модели, разработанные для снижения эффективности вывода при незаконной дистилляции без ухудшения легитимного использования
Anthropic также связала эти выводы со своей предыдущей поддержкой возможностей Claude Code Security для защитников, что является частью более широкой стратегии по обеспечению защиты передовых возможностей ИИ.
Необходим общеотраслевой ответ
Anthropic подчеркивает, что ни одна компания не может решить проблему атак дистилляции в одиночку. Кампании используют коммерческие прокси-сервисы, сторонние облачные платформы и пробелы в верификации аккаунтов, охватывающие всю экосистему ИИ.
Растущая интенсивность и изощренность этих кампаний сужают окно для действия. Anthropic заметила, что дистилляторы быстро адаптируются: при выпуске новых моделей усилия по извлечению меняют направление в течение нескольких часов. Когда аккаунты блокируются, прокси-сети немедленно заменяют их через архитектуры «гидра-кластеров» без единой точки отказа.
Устранение угрозы требует скоординированных действий между компаниями ИИ, облачными провайдерами и политиками. Anthropic опубликовала свои выводы, чтобы сделать доказательства доступными для всех, кто заинтересован в защите передовых возможностей ИИ от несанкционированного извлечения. Компания призывает к общеотраслевым стандартам верификации аккаунтов, общим структурам обмена информацией об угрозах и политической поддержке мер по борьбе с незаконной дистилляцией в больших масштабах.
Часто задаваемые вопросы
Что такое атаки дистилляции ИИ?
Какие компании дистиллировали возможности Claude?
Почему атаки дистилляции представляют угрозу национальной безопасности?
Как DeepSeek, Moonshot и MiniMax получили доступ к Claude?
Как Anthropic реагирует на атаки дистилляции?
Что именно DeepSeek извлекла из Claude?
Будьте в курсе
Получайте последние новости ИИ на почту.
