Anthropic разкрива атаки чрез дистилация от DeepSeek и MiniMax

Anthropic разкрива широкомащабни кампании за дистилация

Anthropic публикува доказателства, че три ИИ лаборатории — DeepSeek, Moonshot AI и MiniMax — са провели координирани кампании за извличане на възможностите на Claude чрез незаконна дистилация. Кампаниите са генерирали над 16 милиона взаимодействия с Claude чрез приблизително 24 000 измамни акаунта, нарушавайки условията за ползване на Anthropic и регионалните ограничения за достъп.

Дистилацията е легитимна техника, при която по-малък модел се обучава върху резултати от по-силен такъв. Пионерските лаборатории редовно дестилират собствените си модели, за да създадат по-евтини версии. Но когато конкурентите използват дистилация без разрешение, те придобиват мощни възможности на малка част от цената и времето, необходими за независимо развитие.

Атаките са били насочени към най-отличителните характеристики на Claude: агентно разсъждение, използване на инструменти и кодиране — същите възможности, които захранват Claude Opus 4.6 и Claude Sonnet 4.6.

Мащаб и цели на всяка кампания

Лаборатория	Взаимодействия	Основни цели
DeepSeek	150 000+	Разсъждение, оценяване чрез модел за награда, заобикаляне на цензурата
Moonshot AI	3,4 милиона+	Агентно разсъждение, използване на инструменти, компютърно зрение
MiniMax	13 милиона+	Агентно кодиране, оркестрация на инструменти

DeepSeek е използвал забележителна техника: подкани, които са изисквали от Claude да формулира вътрешното си разсъждение стъпка по стъпка, ефективно генерирайки данни за обучение тип „верига от мисли“ в голям мащаб. Те също така са използвали Claude за генериране на алтернативи, безопасни по отношение на цензурата, за политически чувствителни заявки — вероятно за да обучат собствените си модели да отклоняват разговорите от цензурирани теми. Anthropic проследи тези акаунти до конкретни изследователи в лабораторията.

Moonshot AI (моделите Kimi) е използвал стотици измамни акаунти по множество пътища за достъп. В по-късен етап Moonshot е преминал към по-целенасочен подход, опитвайки се да извлече и реконструира следите от разсъжденията на Claude.

MiniMax е провел най-голямата кампания с над 13 милиона взаимодействия. Anthropic е открил тази кампания, докато тя все още е била активна — преди MiniMax да пусне модела, който е обучавал. Когато Anthropic пусна нов модел по време на активната кампания, MiniMax се е пренасочил в рамките на 24 часа, пренасочвайки почти половината от трафика си, за да улови най-новите възможности.

Как дестилаторите заобикалят ограниченията за достъп

Anthropic не предлага комерсиален достъп до Claude в Китай по причини, свързани с националната сигурност. Лабораториите са заобиколили това чрез търговски прокси услуги, които препродават достъп до пионерски модели в голям мащаб.

Тези услуги работят с това, което Anthropic нарича архитектури тип „хидра клъстер“: разгърнати мрежи от измамни акаунти, които разпределят трафика през API и облачни платформи на трети страни. Когато един акаунт бъде забранен, нов го замества. Една прокси мрежа е управлявала повече от 20 000 измамни акаунта едновременно, смесвайки трафик за дистилация с несвързани клиентски заявки, за да затрудни откриването.

Това, което отличава дистилацията от нормалното използване, е моделът. Една подкана може да изглежда безобидна, но когато варианти пристигат десетки хиляди пъти чрез стотици координирани акаунти, всички насочени към една и съща тясна възможност, моделът става ясен.

Последици за националната сигурност

Незаконно дестилираните модели нямат предпазните механизми, които американските компании вграждат в пионерските системи. Тези предпазни механизми предотвратяват използването на ИИ за разработване на биологични оръжия, провеждане на офанзивни кибероперации или позволяване на масово наблюдение.

Моделите, изградени чрез незаконна дистилация, е малко вероятно да запазят тези защити. Чуждестранни лаборатории могат да внедрят незащитени възможности във военни, разузнавателни и наблюдателни системи. Ако дестилираните модели станат с отворен код, опасните възможности се разпространяват свободно извън контрола на което и да е правителство.

Атаките чрез дистилация също подкопават контрола върху износа на САЩ. Без видимост върху тези атаки, привидно бързите постижения на тези лаборатории могат да бъдат неправилно интерпретирани като доказателство, че контролът върху износа е неефективен. В действителност, постиженията зависят от възможности, извлечени от американски модели, а извършването на извличане в голям мащаб изисква усъвършенстваните чипове, които контролът върху износа е предназначен да ограничи.

Контрамерки на Anthropic

Anthropic разполага с множество защити срещу атаки чрез дистилация:

Класификатори за откриване: Системи за поведенческо разпознаване, които идентифицират модели на дистилация в API трафика, включително извличане на верига от мисли, използвано за конструиране на данни за обучение за разсъждение.
Обмен на разузнавателни данни: Технически индикатори, споделяни с други ИИ лаборатории, доставчици на облачни услуги и съответните органи за цялостна картина на ландшафта на дистилацията.
Контрол на достъпа: Засилена проверка за образователни акаунти, програми за изследване на сигурността и стартиращи организации — пътищата, които най-често се експлоатират.
Защити на ниво модел: Продуктови, API и моделни контрамерки, предназначени да намалят ефективността на изхода за незаконна дистилация, без да влошават легитимното използване.

Anthropic също така свърза тези открития с по-ранната си подкрепа за възможностите на Claude Code Security за защитници, част от по-широка стратегия за осигуряване на защита на пионерските ИИ възможности.

Необходим е отговор от цялата индустрия

Anthropic подчертава, че никоя компания не може сама да реши проблема с атаките чрез дистилация. Кампаниите експлоатират търговски прокси услуги, облачни платформи на трети страни и пропуски в проверката на акаунти, които обхващат цялата ИИ екосистема.

Нарастващата интензивност и сложност на тези кампании стесняват прозореца за действие. Anthropic е забелязал, че дестилаторите се адаптират бързо: когато се пуснат нови модели, усилията за извличане се пренасочват в рамките на часове. Когато акаунтите бъдат забранени, прокси мрежите ги заместват незабавно чрез архитектури тип „хидра клъстер“ без единна точка на отказ.

Справянето със заплахата изисква координирани действия между ИИ компании, доставчици на облачни услуги и политици. Anthropic публикува своите открития, за да направи доказателствата достъпни за всички, които имат интерес да защитят пионерските ИИ възможности от неоторизирано извличане. Компанията призовава за общоиндустриални стандарти за проверка на акаунти, споделени рамки за разузнаване на заплахи и политическа подкрепа за прилагане на мерки срещу незаконна дистилация в голям мащаб.

Оригинален източник

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

Често задавани въпроси

Какво представляват атаките чрез дистилация на ИИ?

Атаките чрез дистилация на ИИ включват обучение на по-малко способен модел върху резултатите на по-силен такъв без разрешение. Конкурентите генерират огромни обеми внимателно изработени подкани, за да извлекат специфични способности от пионерски модел, след което използват отговорите, за да обучат собствените си системи. Anthropic идентифицира над 16 милиона неправомерни взаимодействия чрез приблизително 24 000 измамни акаунта, използвани от DeepSeek, Moonshot и MiniMax, за да извлекат възможностите на Claude.

Кои компании са дестилирали възможностите на Claude?

Anthropic идентифицира три китайски ИИ лаборатории, провеждащи широкомащабни кампании за дистилация: DeepSeek (над 150 000 взаимодействия, насочени към разсъждения и заобикаляне на цензура), Moonshot AI (над 3,4 милиона взаимодействия, насочени към агентно разсъждение и използване на инструменти) и MiniMax (над 13 милиона взаимодействия, насочени към агентно кодиране и оркестрация на инструменти).

Защо атаките чрез дистилация представляват риск за националната сигурност?

Незаконно дестилираните модели нямат предпазните механизми, които американски компании като Anthropic вграждат в своите системи. Тези незащитени модели могат да бъдат използвани за офанзивни кибероперации, кампании за дезинформация, масово наблюдение и дори подкрепа за разработване на биологични оръжия. Ако дестилираните модели станат с отворен код, опасните възможности се разпространяват извън контрола на което и да е правителство, подкопавайки контрола върху износа, предназначен да поддържа предимството на Америка в ИИ.

Как DeepSeek, Moonshot и MiniMax са получили достъп до Claude?

Лабораториите са заобиколили регионалните ограничения за достъп на Anthropic, използвайки търговски прокси услуги, които препродават достъп до API на Claude в голям мащаб. Тези услуги работят с архитектури тип „хидра клъстер“ с разгърнати мрежи от измамни акаунти, разпределени в API на Anthropic и облачни платформи на трети страни. Една прокси мрежа е управлявала повече от 20 000 измамни акаунта едновременно, смесвайки трафик за дистилация с легитимни заявки, за да избегне откриване.

Как Anthropic реагира на атаките чрез дистилация?

Anthropic въвежда множество контрамерки: класификатори за поведенческо разпознаване за откриване на модели на дистилация в API трафика, обмен на разузнавателни данни с други ИИ лаборатории и доставчици на облачни услуги, засилена проверка на акаунтите и предпазни мерки на ниво модел, които намаляват ефективността на изхода за незаконна дистилация, без да влошават услугата за легитимни потребители. Anthropic също призовава за координирани индустриални и политически отговори.

Какво конкретно е извлякъл DeepSeek от Claude?

DeepSeek се е насочил към възможностите за разсъждение на Claude, задачи за оценяване на базата на критерии (като е накарал Claude да функционира като модел за награда за подсилващо обучение) и алтернативи, безопасни по отношение на цензурата, за политически чувствителни заявки. Те са използвали техники, които са изисквали от Claude да формулира вътрешното си разсъждение стъпка по стъпка, генерирайки данни за обучение тип „верига от мисли“ в голям мащаб. Anthropic проследи тези акаунти до конкретни изследователи в лабораторията на DeepSeek.

Бъдете информирани

Получавайте последните AI новини по имейл.

Сподели