Anthropic изложува напади со дестилација од DeepSeek и MiniMax

Anthropic открива индустриски кампањи за дестилација

Anthropic објави докази дека три лаборатории за вештачка интелигенција — DeepSeek, Moonshot AI и MiniMax — спровеле координирани кампањи за извлекување на способностите на Claude преку незаконска дестилација. Кампањите генерирале над 16 милиони размени со Claude преку приближно 24.000 лажни сметки, со што ги прекршиле условите за користење на Anthropic и регионалните ограничувања за пристап.

Дестилацијата е легитимна техника каде помал модел се тренира врз основа на излези од посилен модел. Лабораториите за гранични модели редовно ги дестилираат сопствените модели за да создадат поевтини верзии. Но, кога конкурентите користат дестилација без овластување, тие стекнуваат моќни способности со дел од цената и времето потребни за независен развој.

Нападите ги таргетираа најдиференцираните карактеристики на Claude: агентско расудување, користење алатки и кодирање — истите способности што ги поддржуваат Claude Opus 4.6 и Claude Sonnet 4.6.

Обемот и целите на секоја кампања

Лабораторија	Размени	Примарни цели
DeepSeek	150.000+	Расудување, оценување на модели за награда, заобиколување на цензура
Moonshot AI	3.4 милиони+	Агентско расудување, користење алатки, компјутерски вид
MiniMax	13 милиони+	Агентско кодирање, оркестрација на алатки

DeepSeek користеше забележителна техника: барања кои бараа од Claude да го артикулира своето внатрешно расудување чекор по чекор, ефективно генерирајќи податоци за тренирање со „верига на мисли“ во голем обем. Тие исто така го користеа Claude за да генерира алтернативи без цензура за политички чувствителни прашања — веројатно за да ги тренираат сопствените модели да ги насочат разговорите подалеку од цензурирани теми. Anthropic ги пронајде овие сметки до конкретни истражувачи во лабораторијата.

Moonshot AI (Kimi модели) користеше стотици лажни сметки преку повеќе пристапни патишта. Во подоцнежна фаза, Moonshot се префрли на потаргетиран пристап, обидувајќи се да ги извлече и реконструира трагите на расудување на Claude.

MiniMax ја водеше најголемата кампања со над 13 милиони размени. Anthropic ја откри оваа кампања додека сè уште беше активна — пред MiniMax да го објави моделот што го тренираше. Кога Anthropic објави нов модел за време на активната кампања, MiniMax се преориентира во рок од 24 часа, пренасочувајќи речиси половина од својот сообраќај за да ги фати најновите способности.

Како дестилерите ги заобиколуваат ограничувањата за пристап

Anthropic не нуди комерцијален пристап до Claude во Кина од причини на национална безбедност. Лабораториите го заобиколија ова преку комерцијални прокси услуги кои препродаваат пристап до гранични модели во голем обем.

Овие услуги користат она што Anthropic го нарекува архитектури „хидра кластер“: распространети мрежи на лажни сметки кои го дистрибуираат сообраќајот низ API и платформи на облак од трети страни. Кога една сметка е забранета, нова ја заменува. Една прокси мрежа истовремено управуваше со повеќе од 20.000 лажни сметки, мешајќи го сообраќајот за дестилација со неповрзани барања на клиенти за да го отежне откривањето.

Она што ја разликува дестилацијата од нормалната употреба е шаблонот. Едно барање може да изгледа бенигно, но кога варијации пристигнуваат десетици илјади пати преку стотици координирани сметки, сите насочени кон истата тесна способност, шаблонот станува јасен.

Импликации за националната безбедност

Незаконски дестилираните модели ги немаат безбедносните заштити што американските компании ги вградуваат во граничните системи. Овие заштити спречуваат вештачката интелигенција да се користи за развој на биолошко оружје, извршување офанзивни сајбер операции или овозможување масовен надзор.

Моделите изградени преку незаконска дестилација веројатно нема да ги задржат тие заштити. Странските лаборатории можат да внесат незаштитени способности во воени, разузнавачки и надзорни системи. Ако дестилираните модели се со отворен код, опасните способности слободно се шират надвор од контролата на која било влада.

Нападите со дестилација исто така ги поткопуваат контролите на извозот на САД. Без увид во овие напади, очигледно брзите напредоци на овие лаборатории може погрешно да се толкуваат како доказ дека контролите на извозот се неефикасни. Во реалноста, напредоците зависат од способностите извлечени од американските модели, а извршувањето на екстракција во голем обем бара напредни чипови што контролите на извозот се дизајнирани да ги ограничат.

Контрамерки на Anthropic

Anthropic распоредува повеќе одбрани против нападите со дестилација:

Класификатори за откривање: Системи за бихевиорално отпечатување кои ги идентификуваат шемите на дестилација во API сообраќајот, вклучувајќи извлекување на „верига на мисли“ што се користи за конструирање податоци за тренирање на расудување
Размена на разузнавачки информации: Технички индикатори споделени со други лаборатории за вештачка интелигенција, провајдери на облак и релевантни власти за холистичка слика на пејзажот на дестилацијата
Контроли на пристап: Зајакната верификација за едукативни сметки, програми за безбедносни истражувања и старт-ап организации — патиштата што најчесто се експлоатираат
Заштитни мерки на ниво на модел: Контрамерки на ниво на производ, API и модел дизајнирани да ја намалат ефикасноста на излезот за незаконска дестилација без да ја деградираат легитимната употреба

Anthropic, исто така, ги поврза овие откритија со својата претходна поддршка за способностите за Claude Code Security за бранители, дел од поширока стратегија за да се осигури дека способностите на граничната вештачка интелигенција остануваат заштитени.

Потребен е одговор од целата индустрија

Anthropic нагласува дека ниту една компанија не може сама да ги реши нападите со дестилација. Кампањите експлоатираат комерцијални прокси услуги, платформи на облак од трети страни и празнини во верификацијата на сметките што се протегаат низ целиот екосистем на вештачката интелигенција.

Растечкиот интензитет и софистицираност на овие кампањи го стеснуваат прозорецот за дејствување. Anthropic забележа дека дестилерите брзо се прилагодуваат: кога ќе се објават нови модели, напорите за екстракција се пренасочуваат во рок од неколку часа. Кога сметките се забранети, прокси мрежите веднаш ги заменуваат преку архитектури на хидра кластер без единствена точка на неуспех.

Справувањето со заканата бара координирано дејствување меѓу компаниите за вештачка интелигенција, провајдерите на облак и креаторите на политики. Anthropic ги објави своите наоди за да ги направи доказите достапни за сите кои имаат интерес да ги заштитат способностите на граничната вештачка интелигенција од неовластено извлекување. Компанијата повикува на стандарди на ниво на индустрија за верификација на сметки, рамки за споделени разузнавачки информации за закани и политичка поддршка за спроведување против незаконска дестилација во голем обем.

Оригинален извор

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

Често поставувани прашања

Што се напади со дестилација на вештачка интелигенција?

Нападите со дестилација на вештачка интелигенција вклучуваат тренирање на помалку способен модел врз основа на излезите од посилен модел без овластување. Конкурентите генерираат огромни количини внимателно изработени барања за да извлечат специфични способности од граничен модел, а потоа ги користат одговорите за да ги тренираат сопствените системи. Anthropic идентификуваше над 16 милиони незаконски размени преку приближно 24.000 лажни сметки користени од DeepSeek, Moonshot и MiniMax за да ги извлечат способностите на Claude.

Кои компании ги дестилираа способностите на Claude?

Anthropic идентификуваше три кинески лаборатории за вештачка интелигенција кои спроведуваат индустриски кампањи за дестилација: DeepSeek (над 150.000 размени насочени кон расудување и заобиколување на цензурата), Moonshot AI (над 3,4 милиони размени насочени кон агентско расудување и користење алатки) и MiniMax (над 13 милиони размени насочени кон агентско кодирање и оркестрација на алатки).

Зошто нападите со дестилација се ризик за националната безбедност?

Незаконски дестилираните модели ги немаат безбедносните заштити што американските компании како Anthropic ги вградуваат во своите системи. Овие незаштитени модели можат да се користат за офанзивни сајбер операции, кампањи за дезинформации, масовен надзор, па дури и поддршка за развој на биолошко оружје. Ако дестилираните модели се со отворен код, опасните способности се шират надвор од контролата на која било влада, поткопувајќи ги контролите на извозот дизајнирани да ја одржат предноста на Америка во вештачката интелигенција.

Како DeepSeek, Moonshot и MiniMax пристапија до Claude?

Лабораториите ги заобиколија регионалните ограничувања за пристап на Anthropic користејќи комерцијални прокси услуги кои препродаваат пристап до Claude API во голем обем. Овие услуги користат кластерски архитектури на хидра со распространети мрежи на лажни сметки дистрибуирани низ Anthropic API и платформи на облак од трети страни. Една прокси мрежа истовремено управуваше со повеќе од 20.000 лажни сметки, мешајќи го сообраќајот за дестилација со легитимни барања за да се избегне откривање.

Како Anthropic одговара на нападите со дестилација?

Anthropic распоредува повеќе контрамерки: класификатори за бихевиорално отпечатување за откривање на шеми на дестилација во API сообраќајот, размена на разузнавачки информации со други лаборатории за вештачка интелигенција и провајдери на облак, зајакната верификација на сметки и заштитни мерки на ниво на модел кои ја намалуваат ефикасноста на излезот за незаконска дестилација без да ја деградираат услугата за легитимни корисници. Anthropic исто така повикува на координирани индустриски и политички одговори.

Што конкретно извлече DeepSeek од Claude?

DeepSeek ги таргетираше способностите за расудување на Claude, задачите за оценување базирани на рубрики (правејќи го Claude да функционира како модел за награда за засилено учење) и алтернативи без цензура за политички чувствителни прашања. Тие користеа техники кои бараа од Claude да го артикулира своето внатрешно расудување чекор по чекор, генерирајќи податоци за тренирање со 'верига на мисли' во голем обем. Anthropic ги пронајде овие сметки до конкретни истражувачи во DeepSeek.

Бидете информирани

Добивајте ги најновите AI вести на е-пошта.

Сподели