Kas ir AI destilācijas uzbrukumi?

AI destilācijas uzbrukumi ietver mazāk spējīga modeļa apmācību, izmantojot spēcīgāka modeļa izvadi bez atļaujas. Konkurenti ģenerē masīvu daudzumu rūpīgi izstrādātu uzvedņu, lai iegūtu specifiskas iespējas no pionieru modeļa, un pēc tam izmanto atbildes savu sistēmu apmācībai. Anthropic identificēja vairāk nekā 16 miljonus nelikumīgu apmaiņu aptuveni 24 000 krāpniecisku kontu ietvaros, ko izmantoja DeepSeek, Moonshot un MiniMax, lai iegūtu Claude iespējas.

Kuri uzņēmumi destilēja Claude iespējas?

Anthropic identificēja trīs Ķīnas AI laboratorijas, kas veica industriāla mēroga destilācijas kampaņas: DeepSeek (vairāk nekā 150 000 apmaiņu, kas vērstas uz spriešanu un cenzūras apiešanu), Moonshot AI (vairāk nekā 3,4 miljoni apmaiņu, kas vērstas uz aģentisko spriešanu un rīku izmantošanu) un MiniMax (vairāk nekā 13 miljoni apmaiņu, kas vērstas uz aģentisko kodēšanu un rīku orķestrēšanu).

Kāpēc destilācijas uzbrukumi ir nacionālās drošības risks?

Nelikumīgi destilētiem modeļiem trūkst drošības vadlīniju, ko tādi ASV uzņēmumi kā Anthropic iebūvē savās sistēmās. Šos neaizsargātos modeļus var izmantot ofensīvām kiberoperācijām, dezinformācijas kampaņām, masveida novērošanai un pat bioloģisko ieroču izstrādes atbalstam. Ja destilētie modeļi tiek atvērti, bīstamas iespējas izplatās ārpus jebkuras valdības kontroles, mazinot eksporta kontroli, kas paredzēta, lai saglabātu Amerikas AI priekšrocības.

Kā DeepSeek, Moonshot un MiniMax piekļuva Claude?

Laboratorijas apieta Anthropic reģionālos piekļuves ierobežojumus, izmantojot komerciālus starpniekpakalpojumus, kas masveidā pārdod Claude API piekļuvi. Šie pakalpojumi darbina hidras klasteru arhitektūras ar plašiem krāpniecisku kontu tīkliem, kas izplatīti Anthropic API un trešo pušu mākoņplatformās. Viens starpniekservera tīkls vienlaikus pārvaldīja vairāk nekā 20 000 krāpniecisku kontu, sajaucot destilācijas datplūsmu ar likumīgiem pieprasījumiem, lai izvairītos no atklāšanas.

Kā Anthropic reaģē uz destilācijas uzbrukumiem?

Anthropic ievieš vairākus pretpasākumus: uzvedības nospiedumu klasifikatorus, lai atklātu destilācijas modeļus API datplūsmā, informācijas apmaiņu ar citām AI laboratorijām un mākoņpakalpojumu sniedzējiem, pastiprinātu kontu verifikāciju un modeļa līmeņa drošības pasākumus, kas samazina izvades efektivitāti nelikumīgai destilācijai, nepasliktinot pakalpojumu likumīgiem lietotājiem. Anthropic arī aicina uz koordinētu nozares un politikas reakciju.

Ko DeepSeek tieši ieguva no Claude?

DeepSeek mērķēja uz Claude spriešanas iespējām, uz rubrikām balstītiem vērtēšanas uzdevumiem (padarot Claude funkcionālu kā atlīdzības modeli pastiprinātai mācībai) un cenzūrai drošām alternatīvām politiski sensitīviem vaicājumiem. Viņi izmantoja metodes, kas lūdza Claude soli pa solim izklāstīt savu iekšējo spriešanu, masveidā ģenerējot doma ķēdes apmācības datus. Anthropic izsekoja šos kontus konkrētiem DeepSeek pētniekiem.

Anthropic atklāj DeepSeek un MiniMax destilācijas uzbrukumus

Anthropic atklāj industriāla mēroga destilācijas kampaņas

Anthropic ir publicējis pierādījumus, ka trīs AI laboratorijas — DeepSeek, Moonshot AI un MiniMax — veica koordinētas kampaņas, lai iegūtu Claude iespējas, izmantojot nelikumīgu destilāciju. Kampaņu rezultātā tika veikta vairāk nekā 16 miljoni apmaiņu ar Claude, izmantojot aptuveni 24 000 krāpniecisku kontu, pārkāpjot Anthropic pakalpojumu noteikumus un reģionālos piekļuves ierobežojumus.

Destilācija ir likumīga tehnika, kurā mazāks modelis tiek apmācīts, izmantojot spēcīgāka modeļa izvadi. Pionieru laboratorijas regulāri destilē savus modeļus, lai radītu lētākas versijas. Taču, kad konkurenti izmanto destilāciju bez atļaujas, viņi iegūst jaudīgas iespējas par daļu no izmaksām un laika, kas nepieciešams neatkarīgai izstrādei.

Uzbrukumi bija vērsti uz Claude visatšķirīgākajām funkcijām: aģentisko spriešanu, rīku izmantošanu un kodēšanu — tās pašas iespējas, kas darbina Claude Opus 4.6 un Claude Sonnet 4.6.

Katras kampaņas mērogs un mērķi

Laboratorija	Apmaiņas	Primārie mērķi
DeepSeek	150 000+	Spriešana, atlīdzības modeļa vērtēšana, cenzūras apiešana
Moonshot AI	3,4 miljoni+	Aģentiskā spriešana, rīku izmantošana, datorredze
MiniMax	13 miljoni+	Aģentiskā kodēšana, rīku orķestrēšana

DeepSeek izmantoja ievērojamu tehniku: uzvednes, kas lūdza Claude soli pa solim izklāstīt savu iekšējo spriešanu, efektīvi masveidā ģenerējot doma ķēdes apmācības datus. Viņi arī izmantoja Claude, lai ģenerētu cenzūrai drošas alternatīvas politiski sensitīviem vaicājumiem — visticamāk, lai apmācītu savus modeļus novirzīt sarunas no cenzētiem tematiem. Anthropic izsekoja šos kontus konkrētiem pētniekiem laboratorijā.

Moonshot AI (Kimi modeļi) izmantoja simtiem krāpniecisku kontu, izmantojot vairākus piekļuves veidus. Vēlākā fāzē Moonshot pārgāja uz mērķtiecīgāku pieeju, cenšoties iegūt un rekonstruēt Claude spriešanas pēdas.

MiniMax vadīja lielāko kampaņu ar vairāk nekā 13 miljoniem apmaiņu. Anthropic atklāja šo kampaņu, kamēr tā vēl bija aktīva — pirms MiniMax izlaida modeli, ko tā apmācīja. Kad Anthropic izlaida jaunu modeli aktīvās kampaņas laikā, MiniMax 24 stundu laikā mainīja virzienu, novirzot gandrīz pusi no savas datplūsmas, lai iegūtu jaunākās iespējas.

Kā destilētāji apiet piekļuves ierobežojumus

Anthropic nepiedāvā komerciālu Claude piekļuvi Ķīnā nacionālās drošības apsvērumu dēļ. Laboratorijas to apieta, izmantojot komerciālus starpniekpakalpojumus, kas masveidā pārdod pionieru modeļa piekļuvi.

Šie pakalpojumi darbina to, ko Anthropic sauc par "hidras klasteru" arhitektūrām: plašus krāpniecisku kontu tīklus, kas izplata datplūsmu starp API un trešo pušu mākoņplatformām. Kad viens konts tiek aizliegts, jauns to aizstāj. Viens starpniekservera tīkls vienlaikus pārvaldīja vairāk nekā 20 000 krāpniecisku kontu, sajaucot destilācijas datplūsmu ar nesaistītiem klientu pieprasījumiem, lai apgrūtinātu atklāšanu.

Kas atšķir destilāciju no parastas lietošanas, ir tās modelis. Viena uzvedne var šķist nekaitīga, taču, kad variācijas tiek saņemtas desmitiem tūkstošu reižu simtiem koordinētu kontu ietvaros, kas visi vērsti uz to pašu šauro iespēju, modelis kļūst skaidrs.

Nacionālās drošības ietekme

Nelikumīgi destilētiem modeļiem trūkst drošības vadlīniju, ko ASV uzņēmumi iebūvē pionieru sistēmās. Šīs vadlīnijas neļauj AI izmantot bioloģisko ieroču izstrādei, ofensīvu kiberoperāciju veikšanai vai masveida novērošanai.

Modeļi, kas izveidoti nelikumīgas destilācijas ceļā, visticamāk, nepaturēs šīs aizsardzības. Ārvalstu laboratorijas var ievadīt neaizsargātas iespējas militārajās, izlūkošanas un novērošanas sistēmās. Ja destilētie modeļi tiek atvērti, bīstamas iespējas brīvi izplatās ārpus jebkuras valdības kontroles.

Destilācijas uzbrukumi arī grauj ASV eksporta kontroli. Bez redzamības šajos uzbrukumos šo laboratoriju acīmredzami straujā attīstība var tikt nepareizi interpretēta kā pierādījums tam, ka eksporta kontrole ir neefektīva. Realitātē sasniegumi ir atkarīgi no iespējām, kas iegūtas no Amerikas modeļiem, un ekstrakcijas veikšana lielā mērogā prasa modernās mikroshēmas, kuras eksporta kontrole ir paredzēta ierobežot.

Anthropic pretpasākumi

Anthropic ievieš vairākas aizsardzības pret destilācijas uzbrukumiem:

Atklāšanas klasifikatori: Uzvedības nospiedumu sistēmas, kas identificē destilācijas modeļus API datplūsmā, ieskaitot doma ķēdes izsaukšanu, ko izmanto spriešanas apmācības datu veidošanai.
Informācijas apmaiņa: Tehniskie rādītāji tiek kopīgoti ar citām AI laboratorijām, mākoņpakalpojumu sniedzējiem un attiecīgajām iestādēm, lai iegūtu holistisku priekšstatu par destilācijas ainavu.
Piekļuves kontrole: Pastiprināta verifikācija izglītības kontiem, drošības pētījumu programmām un jaunuzņēmumu organizācijām — visbiežāk izmantotajiem ceļiem.
Modeļa līmeņa drošības pasākumi: Produkta, API un modeļa līmeņa pretpasākumi, kas paredzēti, lai samazinātu izvades efektivitāti nelikumīgai destilācijai, nepasliktinot likumīgu lietošanu.

Anthropic ir saistījis šos atklājumus ar savu agrāko atbalstu Claude Code Security iespējām aizstāvjiem, kas ir daļa no plašākas stratēģijas, lai nodrošinātu pionieru AI iespēju aizsardzību.

Nepieciešama visas nozares reakcija

Anthropic uzsver, ka neviens uzņēmums nevar atrisināt destilācijas uzbrukumus viens pats. Kampaņas izmanto komerciālus starpniekpakalpojumus, trešo pušu mākoņplatformas un nepilnības kontu verifikācijā, kas aptver visu AI ekosistēmu.

Šo kampaņu pieaugošā intensitāte un sarežģītība sašaurina logu darbībai. Anthropic ir novērojis, ka destilētāji ātri pielāgojas: kad tiek izlaisti jauni modeļi, ekstrakcijas centieni mainās dažu stundu laikā. Kad konti tiek aizliegti, starpniekserveru tīkli tos nekavējoties aizstāj, izmantojot hidras klasteru arhitektūras bez viena kļūdas punkta.

Draudu novēršana prasa koordinētu rīcību starp AI uzņēmumiem, mākoņpakalpojumu sniedzējiem un politikas veidotājiem. Anthropic publicēja savus atklājumus, lai padarītu pierādījumus pieejamus visiem, kam ir interese aizsargāt pionieru AI iespējas no neatļautas ekstrakcijas. Uzņēmums aicina ieviest visas nozares standartus kontu verifikācijai, kopīgas draudu izlūkošanas ietvarus un politikas atbalstu, lai nodrošinātu izpildi pret nelikumīgu destilāciju lielā mērogā.