Što su napadi destilacije UI-ja?

Napadi destilacije UI-ja uključuju obuku manje sposobnog modela na izlazima jačeg bez autorizacije. Konkurenti generiraju masivne količine pažljivo osmišljenih upita kako bi izvukli specifične mogućnosti iz graničnog modela, a zatim koriste odgovore za obuku vlastitih sustava. Anthropic je identificirao preko 16 milijuna nedopuštenih razmjena putem približno 24.000 lažnih računa koje su koristili DeepSeek, Moonshot i MiniMax za ekstrakciju mogućnosti Claudea.

Koje su tvrtke destilirale mogućnosti Claudea?

Anthropic je identificirao tri kineska laboratorija za UI koja su provodila kampanje destilacije industrijskih razmjera: DeepSeek (preko 150.000 razmjena ciljajući na rasuđivanje i zaobilaženje cenzure), Moonshot AI (preko 3,4 milijuna razmjena ciljajući na agentno rasuđivanje i korištenje alata) i MiniMax (preko 13 milijuna razmjena ciljajući na agentno kodiranje i orkestraciju alata).

Zašto su napadi destilacije rizik za nacionalnu sigurnost?

Nezakonito destilirani modeli nemaju sigurnosne zaštitne mehanizme koje američke tvrtke poput Anthropic ugrađuju u svoje sustave. Ovi nezaštićeni modeli mogu se koristiti za ofenzivne cyber operacije, kampanje dezinformacija, masovni nadzor, pa čak i potporu razvoju biološkog oružja. Ako se destilirani modeli objave kao otvoreni izvor, opasne mogućnosti šire se izvan kontrole bilo koje vlade, potkopavajući kontrole izvoza osmišljene za održavanje američke prednosti u UI-ju.

Kako su DeepSeek, Moonshot i MiniMax pristupili Claudeu?

Laboratoriji su zaobišli Anthropicova regionalna ograničenja pristupa koristeći komercijalne proxy usluge koje preprodaju pristup Claude API-ju u velikom opsegu. Te usluge pokreću arhitekture 'hydra klastera' s raširenim mrežama lažnih računa raspoređenih preko Anthropicovog API-ja i vanjskih cloud platformi. Jedna proxy mreža upravljala je s više od 20.000 lažnih računa istovremeno, miješajući destilacijski promet s legitimnim zahtjevima kako bi se izbjegla detekcija.

Kako Anthropic reagira na napade destilacije?

Anthropic primjenjuje višestruke protumjere: klasifikatore bihevioralnog otiska prsta za detekciju uzoraka destilacije u API prometu, razmjenu obavještajnih podataka s drugim UI laboratorijima i pružateljima cloud usluga, ojačanu provjeru računa te sigurnosne mehanizme na razini modela koji smanjuju učinkovitost izlaza za nedopuštenu destilaciju bez degradiranja usluge za legitimne korisnike. Anthropic također poziva na koordinirane industrijske i političke odgovore.

Što je DeepSeek konkretno izvukao iz Claudea?

DeepSeek je ciljao na Claudeove sposobnosti rasuđivanja, zadatke ocjenjivanja temeljene na rubrikama (čineći Claude funkcionalnim kao model nagrađivanja za učenje potpomognuto pojačanjem) i cenzurno sigurne alternative politički osjetljivim upitima. Koristili su tehnike koje su tražile od Claudea da korak po korak objasni svoje interno rasuđivanje, generirajući podatke za obuku 'lanca razmišljanja' u velikom opsegu. Anthropic je pratio te račune do specifičnih istraživača u DeepSeeku.

Anthropic razotkriva napade destilacije od strane DeepSeeka i MiniMaxa

Anthropic otkriva kampanje destilacije industrijskih razmjera

Anthropic je objavio dokaze da su tri laboratorija za UI — DeepSeek, Moonshot AI i MiniMax — vodila koordinirane kampanje za ekstrakciju Claudeovih mogućnosti putem nedopuštene destilacije. Kampanje su generirale preko 16 milijuna razmjena s Claudeom putem približno 24.000 lažnih računa, kršeći Anthropicove uvjete korištenja i regionalna ograničenja pristupa.

Destilacija je legitimna tehnika gdje se manji model obučava na izlazima jačeg. Granični laboratoriji redovito destiliraju vlastite modele kako bi stvorili jeftinije verzije. Ali kada konkurenti koriste destilaciju bez autorizacije, stječu moćne mogućnosti uz djelić troškova i vremena potrebnog za neovisan razvoj.

Napadi su ciljali na Claudeove najrazličitije značajke: agentno rasuđivanje, korištenje alata i kodiranje — iste mogućnosti koje pokreću Claude Opus 4.6 i Claude Sonnet 4.6.

Opseg i ciljevi svake kampanje

Laboratorij	Razmjene	Primarni ciljevi
DeepSeek	150.000+	Rasuđivanje, ocjenjivanje modela nagrađivanja, zaobilaženje cenzure
Moonshot AI	3,4 milijuna+	Agentno rasuđivanje, korištenje alata, računalni vid
MiniMax	13 milijuna+	Agentno kodiranje, orkestracija alata

DeepSeek je koristio značajnu tehniku: upite koji su tražili od Claudea da korak po korak objasni svoje interno rasuđivanje, učinkovito generirajući podatke za obuku 'lanca razmišljanja' u velikom opsegu. Također su koristili Claudea za generiranje cenzurno sigurnih alternativa politički osjetljivim upitima — vjerojatno kako bi obučili vlastite modele da usmjeravaju razgovore od cenzuriranih tema. Anthropic je pratio te račune do specifičnih istraživača u laboratoriju.

Moonshot AI (Kimi modeli) koristio je stotine lažnih računa putem više pristupnih putova. U kasnijoj fazi, Moonshot se prebacio na ciljaniji pristup, pokušavajući izdvojiti i rekonstruirati Claudeove tragove rasuđivanja.

MiniMax je vodio najveću kampanju s preko 13 milijuna razmjena. Anthropic je detektirao ovu kampanju dok je još bila aktivna — prije nego što je MiniMax objavio model koji je obučavao. Kada je Anthropic objavio novi model tijekom aktivne kampanje, MiniMax se preorijentirao unutar 24 sata, preusmjeravajući gotovo polovicu svog prometa kako bi uhvatio najnovije mogućnosti.

Kako destilatori zaobilaze ograničenja pristupa

Anthropic ne nudi komercijalni pristup Claudeu u Kini iz razloga nacionalne sigurnosti. Laboratoriji su to zaobišli koristeći komercijalne proxy usluge koje preprodaju pristup graničnim modelima u velikom opsegu.

Te usluge pokreću ono što Anthropic naziva arhitekturama "hydra klastera": raširene mreže lažnih računa koje distribuiraju promet preko API-ja i vanjskih cloud platformi. Kada se jedan račun zabrani, novi ga zamjenjuje. Jedna proxy mreža upravljala je s više od 20.000 lažnih računa istovremeno, miješajući destilacijski promet s nepovezanim zahtjevima klijenata kako bi otežala detekciju.

Ono što destilaciju razlikuje od uobičajene uporabe je obrazac. Jedan upit može izgledati bezopasno, ali kada varijacije stignu desetke tisuća puta preko stotina koordiniranih računa, a svi ciljaju na istu usku mogućnost, obrazac postaje jasan.

Implikacije na nacionalnu sigurnost

Nezakonito destilirani modeli nemaju sigurnosne zaštitne mehanizme koje američke tvrtke ugrađuju u granične sustave. Ti zaštitni mehanizmi sprječavaju korištenje UI-ja za razvoj biološkog oružja, provođenje ofenzivnih cyber operacija ili omogućavanje masovnog nadzora.

Modeli izgrađeni nezakonitom destilacijom vjerojatno neće zadržati te zaštite. Strani laboratoriji mogu nezaštićene mogućnosti ubrizgati u vojne, obavještajne i nadzorne sustave. Ako se destilirani modeli objave kao otvoreni izvor, opasne mogućnosti se slobodno šire izvan kontrole bilo koje vlade.

Napadi destilacije također potkopavaju američke izvozne kontrole. Bez uvida u ove napade, naizgled brzi napredak ovih laboratorija može se pogrešno protumačiti kao dokaz da su izvozne kontrole neučinkovite. U stvarnosti, napredak ovisi o mogućnostima izvučenim iz američkih modela, a izvođenje ekstrakcije u velikom opsegu zahtijeva napredne čipove koje su izvozne kontrole osmišljene da ograniče.

Anthropicove protumjere

Anthropic primjenjuje višestruke obrane protiv napada destilacije:

Klasifikatori detekcije: Sustavi bihevioralnog otiska prsta koji identificiraju uzorke destilacije u API prometu, uključujući izdvajanje 'lanca razmišljanja' koje se koristi za konstruiranje podataka za obuku rasuđivanja
Dijeljenje obavještajnih podataka: Tehnički indikatori podijeljeni s drugim UI laboratorijima, pružateljima cloud usluga i relevantnim vlastima za holističku sliku destilacijskog krajolika
Kontrole pristupa: Pojačana provjera za obrazovne račune, programe sigurnosnog istraživanja i startup organizacije — putove koji se najčešće zloupotrebljavaju
Sigurnosne mjere na razini modela: Proizvodne, API i protumjere na razini modela osmišljene za smanjenje učinkovitosti izlaza za nedopuštenu destilaciju bez degradiranja legitimne uporabe

Anthropic je također povezao ove nalaze sa svojom ranijom podrškom za mogućnosti Claude Code Security za branitelje, kao dio šire strategije za osiguranje zaštite graničnih UI mogućnosti.

Potreban odgovor cijele industrije

Anthropic naglašava da niti jedna tvrtka ne može sama riješiti napade destilacije. Kampanje iskorištavaju komercijalne proxy usluge, vanjske cloud platforme i propuste u provjeri računa koji obuhvaćaju cijeli ekosustav UI-ja.

Rastuća intenzivnost i sofisticiranost ovih kampanja sužavaju prostor za djelovanje. Anthropic je primijetio da se destilatori brzo prilagođavaju: kada se objave novi modeli, napori za ekstrakciju preusmjeravaju se unutar nekoliko sati. Kada se računi zabrane, proxy mreže ih odmah zamjenjuju putem arhitektura 'hydra klastera' bez jedinstvene točke kvara.

Rješavanje ove prijetnje zahtijeva koordinirano djelovanje među UI tvrtkama, pružateljima cloud usluga i donositeljima politika. Anthropic je objavio svoje nalaze kako bi dokaze učinio dostupnima svima koji imaju udjela u zaštiti graničnih mogućnosti UI-ja od neovlaštene ekstrakcije. Tvrtka poziva na standarde provjere računa na razini cijele industrije, zajedničke okvire za obavještavanje o prijetnjama i političku podršku za provedbu mjera protiv nedopuštene destilacije u velikom opsegu.