Anthropic разкрива широкомащабни кампании за дистилация
Anthropic публикува доказателства, че три ИИ лаборатории — DeepSeek, Moonshot AI и MiniMax — са провели координирани кампании за извличане на възможностите на Claude чрез незаконна дистилация. Кампаниите са генерирали над 16 милиона взаимодействия с Claude чрез приблизително 24 000 измамни акаунта, нарушавайки условията за ползване на Anthropic и регионалните ограничения за достъп.
Дистилацията е легитимна техника, при която по-малък модел се обучава върху резултати от по-силен такъв. Пионерските лаборатории редовно дестилират собствените си модели, за да създадат по-евтини версии. Но когато конкурентите използват дистилация без разрешение, те придобиват мощни възможности на малка част от цената и времето, необходими за независимо развитие.
Атаките са били насочени към най-отличителните характеристики на Claude: агентно разсъждение, използване на инструменти и кодиране — същите възможности, които захранват Claude Opus 4.6 и Claude Sonnet 4.6.
Мащаб и цели на всяка кампания
| Лаборатория | Взаимодействия | Основни цели |
|---|---|---|
| DeepSeek | 150 000+ | Разсъждение, оценяване чрез модел за награда, заобикаляне на цензурата |
| Moonshot AI | 3,4 милиона+ | Агентно разсъждение, използване на инструменти, компютърно зрение |
| MiniMax | 13 милиона+ | Агентно кодиране, оркестрация на инструменти |
DeepSeek е използвал забележителна техника: подкани, които са изисквали от Claude да формулира вътрешното си разсъждение стъпка по стъпка, ефективно генерирайки данни за обучение тип „верига от мисли“ в голям мащаб. Те също така са използвали Claude за генериране на алтернативи, безопасни по отношение на цензурата, за политически чувствителни заявки — вероятно за да обучат собствените си модели да отклоняват разговорите от цензурирани теми. Anthropic проследи тези акаунти до конкретни изследователи в лабораторията.
Moonshot AI (моделите Kimi) е използвал стотици измамни акаунти по множество пътища за достъп. В по-късен етап Moonshot е преминал към по-целенасочен подход, опитвайки се да извлече и реконструира следите от разсъжденията на Claude.
MiniMax е провел най-голямата кампания с над 13 милиона взаимодействия. Anthropic е открил тази кампания, докато тя все още е била активна — преди MiniMax да пусне модела, който е обучавал. Когато Anthropic пусна нов модел по време на активната кампания, MiniMax се е пренасочил в рамките на 24 часа, пренасочвайки почти половината от трафика си, за да улови най-новите възможности.
Как дестилаторите заобикалят ограниченията за достъп
Anthropic не предлага комерсиален достъп до Claude в Китай по причини, свързани с националната сигурност. Лабораториите са заобиколили това чрез търговски прокси услуги, които препродават достъп до пионерски модели в голям мащаб.
Тези услуги работят с това, което Anthropic нарича архитектури тип „хидра клъстер“: разгърнати мрежи от измамни акаунти, които разпределят трафика през API и облачни платформи на трети страни. Когато един акаунт бъде забранен, нов го замества. Една прокси мрежа е управлявала повече от 20 000 измамни акаунта едновременно, смесвайки трафик за дистилация с несвързани клиентски заявки, за да затрудни откриването.
Това, което отличава дистилацията от нормалното използване, е моделът. Една подкана може да изглежда безобидна, но когато варианти пристигат десетки хиляди пъти чрез стотици координирани акаунти, всички насочени към една и съща тясна възможност, моделът става ясен.
Последици за националната сигурност
Незаконно дестилираните модели нямат предпазните механизми, които американските компании вграждат в пионерските системи. Тези предпазни механизми предотвратяват използването на ИИ за разработване на биологични оръжия, провеждане на офанзивни кибероперации или позволяване на масово наблюдение.
Моделите, изградени чрез незаконна дистилация, е малко вероятно да запазят тези защити. Чуждестранни лаборатории могат да внедрят незащитени възможности във военни, разузнавателни и наблюдателни системи. Ако дестилираните модели станат с отворен код, опасните възможности се разпространяват свободно извън контрола на което и да е правителство.
Атаките чрез дистилация също подкопават контрола върху износа на САЩ. Без видимост върху тези атаки, привидно бързите постижения на тези лаборатории могат да бъдат неправилно интерпретирани като доказателство, че контролът върху износа е неефективен. В действителност, постиженията зависят от възможности, извлечени от американски модели, а извършването на извличане в голям мащаб изисква усъвършенстваните чипове, които контролът върху износа е предназначен да ограничи.
Контрамерки на Anthropic
Anthropic разполага с множество защити срещу атаки чрез дистилация:
- Класификатори за откриване: Системи за поведенческо разпознаване, които идентифицират модели на дистилация в API трафика, включително извличане на верига от мисли, използвано за конструиране на данни за обучение за разсъждение.
- Обмен на разузнавателни данни: Технически индикатори, споделяни с други ИИ лаборатории, доставчици на облачни услуги и съответните органи за цялостна картина на ландшафта на дистилацията.
- Контрол на достъпа: Засилена проверка за образователни акаунти, програми за изследване на сигурността и стартиращи организации — пътищата, които най-често се експлоатират.
- Защити на ниво модел: Продуктови, API и моделни контрамерки, предназначени да намалят ефективността на изхода за незаконна дистилация, без да влошават легитимното използване.
Anthropic също така свърза тези открития с по-ранната си подкрепа за възможностите на Claude Code Security за защитници, част от по-широка стратегия за осигуряване на защита на пионерските ИИ възможности.
Необходим е отговор от цялата индустрия
Anthropic подчертава, че никоя компания не може сама да реши проблема с атаките чрез дистилация. Кампаниите експлоатират търговски прокси услуги, облачни платформи на трети страни и пропуски в проверката на акаунти, които обхващат цялата ИИ екосистема.
Нарастващата интензивност и сложност на тези кампании стесняват прозореца за действие. Anthropic е забелязал, че дестилаторите се адаптират бързо: когато се пуснат нови модели, усилията за извличане се пренасочват в рамките на часове. Когато акаунтите бъдат забранени, прокси мрежите ги заместват незабавно чрез архитектури тип „хидра клъстер“ без единна точка на отказ.
Справянето със заплахата изисква координирани действия между ИИ компании, доставчици на облачни услуги и политици. Anthropic публикува своите открития, за да направи доказателствата достъпни за всички, които имат интерес да защитят пионерските ИИ възможности от неоторизирано извличане. Компанията призовава за общоиндустриални стандарти за проверка на акаунти, споделени рамки за разузнаване на заплахи и политическа подкрепа за прилагане на мерки срещу незаконна дистилация в голям мащаб.
Оригинален източник
https://www.anthropic.com/news/detecting-and-preventing-distillation-attacksЧесто задавани въпроси
Какво представляват атаките чрез дистилация на ИИ?
Кои компании са дестилирали възможностите на Claude?
Защо атаките чрез дистилация представляват риск за националната сигурност?
Как DeepSeek, Moonshot и MiniMax са получили достъп до Claude?
Как Anthropic реагира на атаките чрез дистилация?
Какво конкретно е извлякъл DeepSeek от Claude?
Бъдете информирани
Получавайте последните AI новини по имейл.
