Anthropic atklāj industriāla mēroga destilācijas kampaņas
Anthropic ir publicējis pierādījumus, ka trīs AI laboratorijas — DeepSeek, Moonshot AI un MiniMax — veica koordinētas kampaņas, lai iegūtu Claude iespējas, izmantojot nelikumīgu destilāciju. Kampaņu rezultātā tika veikta vairāk nekā 16 miljoni apmaiņu ar Claude, izmantojot aptuveni 24 000 krāpniecisku kontu, pārkāpjot Anthropic pakalpojumu noteikumus un reģionālos piekļuves ierobežojumus.
Destilācija ir likumīga tehnika, kurā mazāks modelis tiek apmācīts, izmantojot spēcīgāka modeļa izvadi. Pionieru laboratorijas regulāri destilē savus modeļus, lai radītu lētākas versijas. Taču, kad konkurenti izmanto destilāciju bez atļaujas, viņi iegūst jaudīgas iespējas par daļu no izmaksām un laika, kas nepieciešams neatkarīgai izstrādei.
Uzbrukumi bija vērsti uz Claude visatšķirīgākajām funkcijām: aģentisko spriešanu, rīku izmantošanu un kodēšanu — tās pašas iespējas, kas darbina Claude Opus 4.6 un Claude Sonnet 4.6.
Katras kampaņas mērogs un mērķi
| Laboratorija | Apmaiņas | Primārie mērķi |
|---|---|---|
| DeepSeek | 150 000+ | Spriešana, atlīdzības modeļa vērtēšana, cenzūras apiešana |
| Moonshot AI | 3,4 miljoni+ | Aģentiskā spriešana, rīku izmantošana, datorredze |
| MiniMax | 13 miljoni+ | Aģentiskā kodēšana, rīku orķestrēšana |
DeepSeek izmantoja ievērojamu tehniku: uzvednes, kas lūdza Claude soli pa solim izklāstīt savu iekšējo spriešanu, efektīvi masveidā ģenerējot doma ķēdes apmācības datus. Viņi arī izmantoja Claude, lai ģenerētu cenzūrai drošas alternatīvas politiski sensitīviem vaicājumiem — visticamāk, lai apmācītu savus modeļus novirzīt sarunas no cenzētiem tematiem. Anthropic izsekoja šos kontus konkrētiem pētniekiem laboratorijā.
Moonshot AI (Kimi modeļi) izmantoja simtiem krāpniecisku kontu, izmantojot vairākus piekļuves veidus. Vēlākā fāzē Moonshot pārgāja uz mērķtiecīgāku pieeju, cenšoties iegūt un rekonstruēt Claude spriešanas pēdas.
MiniMax vadīja lielāko kampaņu ar vairāk nekā 13 miljoniem apmaiņu. Anthropic atklāja šo kampaņu, kamēr tā vēl bija aktīva — pirms MiniMax izlaida modeli, ko tā apmācīja. Kad Anthropic izlaida jaunu modeli aktīvās kampaņas laikā, MiniMax 24 stundu laikā mainīja virzienu, novirzot gandrīz pusi no savas datplūsmas, lai iegūtu jaunākās iespējas.
Kā destilētāji apiet piekļuves ierobežojumus
Anthropic nepiedāvā komerciālu Claude piekļuvi Ķīnā nacionālās drošības apsvērumu dēļ. Laboratorijas to apieta, izmantojot komerciālus starpniekpakalpojumus, kas masveidā pārdod pionieru modeļa piekļuvi.
Šie pakalpojumi darbina to, ko Anthropic sauc par "hidras klasteru" arhitektūrām: plašus krāpniecisku kontu tīklus, kas izplata datplūsmu starp API un trešo pušu mākoņplatformām. Kad viens konts tiek aizliegts, jauns to aizstāj. Viens starpniekservera tīkls vienlaikus pārvaldīja vairāk nekā 20 000 krāpniecisku kontu, sajaucot destilācijas datplūsmu ar nesaistītiem klientu pieprasījumiem, lai apgrūtinātu atklāšanu.
Kas atšķir destilāciju no parastas lietošanas, ir tās modelis. Viena uzvedne var šķist nekaitīga, taču, kad variācijas tiek saņemtas desmitiem tūkstošu reižu simtiem koordinētu kontu ietvaros, kas visi vērsti uz to pašu šauro iespēju, modelis kļūst skaidrs.
Nacionālās drošības ietekme
Nelikumīgi destilētiem modeļiem trūkst drošības vadlīniju, ko ASV uzņēmumi iebūvē pionieru sistēmās. Šīs vadlīnijas neļauj AI izmantot bioloģisko ieroču izstrādei, ofensīvu kiberoperāciju veikšanai vai masveida novērošanai.
Modeļi, kas izveidoti nelikumīgas destilācijas ceļā, visticamāk, nepaturēs šīs aizsardzības. Ārvalstu laboratorijas var ievadīt neaizsargātas iespējas militārajās, izlūkošanas un novērošanas sistēmās. Ja destilētie modeļi tiek atvērti, bīstamas iespējas brīvi izplatās ārpus jebkuras valdības kontroles.
Destilācijas uzbrukumi arī grauj ASV eksporta kontroli. Bez redzamības šajos uzbrukumos šo laboratoriju acīmredzami straujā attīstība var tikt nepareizi interpretēta kā pierādījums tam, ka eksporta kontrole ir neefektīva. Realitātē sasniegumi ir atkarīgi no iespējām, kas iegūtas no Amerikas modeļiem, un ekstrakcijas veikšana lielā mērogā prasa modernās mikroshēmas, kuras eksporta kontrole ir paredzēta ierobežot.
Anthropic pretpasākumi
Anthropic ievieš vairākas aizsardzības pret destilācijas uzbrukumiem:
- Atklāšanas klasifikatori: Uzvedības nospiedumu sistēmas, kas identificē destilācijas modeļus API datplūsmā, ieskaitot doma ķēdes izsaukšanu, ko izmanto spriešanas apmācības datu veidošanai.
- Informācijas apmaiņa: Tehniskie rādītāji tiek kopīgoti ar citām AI laboratorijām, mākoņpakalpojumu sniedzējiem un attiecīgajām iestādēm, lai iegūtu holistisku priekšstatu par destilācijas ainavu.
- Piekļuves kontrole: Pastiprināta verifikācija izglītības kontiem, drošības pētījumu programmām un jaunuzņēmumu organizācijām — visbiežāk izmantotajiem ceļiem.
- Modeļa līmeņa drošības pasākumi: Produkta, API un modeļa līmeņa pretpasākumi, kas paredzēti, lai samazinātu izvades efektivitāti nelikumīgai destilācijai, nepasliktinot likumīgu lietošanu.
Anthropic ir saistījis šos atklājumus ar savu agrāko atbalstu Claude Code Security iespējām aizstāvjiem, kas ir daļa no plašākas stratēģijas, lai nodrošinātu pionieru AI iespēju aizsardzību.
Nepieciešama visas nozares reakcija
Anthropic uzsver, ka neviens uzņēmums nevar atrisināt destilācijas uzbrukumus viens pats. Kampaņas izmanto komerciālus starpniekpakalpojumus, trešo pušu mākoņplatformas un nepilnības kontu verifikācijā, kas aptver visu AI ekosistēmu.
Šo kampaņu pieaugošā intensitāte un sarežģītība sašaurina logu darbībai. Anthropic ir novērojis, ka destilētāji ātri pielāgojas: kad tiek izlaisti jauni modeļi, ekstrakcijas centieni mainās dažu stundu laikā. Kad konti tiek aizliegti, starpniekserveru tīkli tos nekavējoties aizstāj, izmantojot hidras klasteru arhitektūras bez viena kļūdas punkta.
Draudu novēršana prasa koordinētu rīcību starp AI uzņēmumiem, mākoņpakalpojumu sniedzējiem un politikas veidotājiem. Anthropic publicēja savus atklājumus, lai padarītu pierādījumus pieejamus visiem, kam ir interese aizsargāt pionieru AI iespējas no neatļautas ekstrakcijas. Uzņēmums aicina ieviest visas nozares standartus kontu verifikācijai, kopīgas draudu izlūkošanas ietvarus un politikas atbalstu, lai nodrošinātu izpildi pret nelikumīgu destilāciju lielā mērogā.
Bieži uzdotie jautājumi
Kas ir AI destilācijas uzbrukumi?
Kuri uzņēmumi destilēja Claude iespējas?
Kāpēc destilācijas uzbrukumi ir nacionālās drošības risks?
Kā DeepSeek, Moonshot un MiniMax piekļuva Claude?
Kā Anthropic reaģē uz destilācijas uzbrukumiem?
Ko DeepSeek tieši ieguva no Claude?
Esiet informēti
Saņemiet jaunākās AI ziņas savā e-pastā.
