Šta su AI napadi destilacije?

AI napadi destilacije uključuju obučavanje manje sposobnog modela na izlazima jačeg modela bez ovlašćenja. Konkurenti generišu ogroman broj pažljivo osmišljenih upita kako bi izvukli specifične sposobnosti iz graničnog modela, a zatim koriste te odgovore za obuku sopstvenih sistema. Anthropic je identifikovao preko 16 miliona nezakonitih razmena putem približno 24.000 lažnih naloga koje su koristili DeepSeek, Moonshot i MiniMax za ekstrakciju Claude-ovih sposobnosti.

Koje su kompanije destilovale Claude-ove sposobnosti?

Anthropic je identifikovao tri kineske AI laboratorije koje su sprovodile kampanje destilacije industrijskih razmera: DeepSeek (preko 150.000 razmena usmerenih na rezonovanje i zaobilaženje cenzure), Moonshot AI (preko 3,4 miliona razmena usmerenih na agentsko rezonovanje i korišćenje alata), i MiniMax (preko 13 miliona razmena usmerenih na agentsko kodiranje i orkestraciju alata).

Zašto su napadi destilacije rizik po nacionalnu bezbednost?

Nezakonito destilovani modeli nemaju sigurnosne ograde koje američke kompanije poput Anthropic-a ugrađuju u svoje sisteme. Ovi nezaštićeni modeli mogu biti primenjeni za ofanzivne sajber operacije, kampanje dezinformacija, masovni nadzor, pa čak i podršku razvoju biološkog oružja. Ako se destilovani modeli objave kao otvoreni kod, opasne sposobnosti se šire izvan kontrole bilo koje vlade, podrivajući kontrole izvoza osmišljene da održe američku AI prednost.

Kako su DeepSeek, Moonshot i MiniMax pristupili Claude-u?

Laboratorije su zaobišle Anthropic-ova regionalna ograničenja pristupa koristeći komercijalne proksi servise koji preprodaju pristup Claude API-ju u velikoj meri. Ovi servisi koriste arhitekture hidra klastera sa raširenim mrežama lažnih naloga raspoređenih po Anthropic API-ju i platformama oblaka trećih strana. Jedna proksi mreža je istovremeno upravljala sa više od 20.000 lažnih naloga, mešajući saobraćaj destilacije sa legitimnim zahtevima kako bi se izbegla detekcija.

Kako Anthropic odgovara na napade destilacije?

Anthropic primenjuje više kontramera: klasifikatore bihevioralnog otiska za detekciju obrazaca destilacije u API saobraćaju, razmenu obaveštajnih podataka sa drugim AI laboratorijama i provajderima oblaka, pojačanu verifikaciju naloga i zaštitne mere na nivou modela koje smanjuju efikasnost izlaza za nezakonitu destilaciju bez degradiranja usluge za legitimne korisnike. Anthropic takođe poziva na koordinisane industrijske i političke odgovore.

Šta je DeepSeek konkretno izvukao iz Claude-a?

DeepSeek je ciljao Claude-ove sposobnosti rezonovanja, zadatke ocenjivanja zasnovane na rubrici (čineći da Claude funkcioniše kao model nagrađivanja za učenje potkrepljivanjem), i alternative bezbedne od cenzure za politički osetljive upite. Koristili su tehnike koje su tražile od Claude-a da artikuliše svoje interno rezonovanje korak po korak, generišući podatke za obuku lanca razmišljanja u velikoj meri. Anthropic je pratio ove naloge do specifičnih istraživača u DeepSeek-u.

Anthropic razotkriva napade destilacije od strane DeepSeek-a i MiniMax-a

Anthropic otkriva kampanje destilacije industrijskih razmera

Anthropic je objavio dokaze da su tri AI laboratorije — DeepSeek, Moonshot AI i MiniMax — sprovodile koordinisane kampanje za ekstrakciju Claude-ovih sposobnosti putem nezakonite destilacije. Kampanje su generisale preko 16 miliona razmena sa Claude-om putem približno 24.000 lažnih naloga, kršeći Anthropic-ove uslove korišćenja usluge i regionalna ograničenja pristupa.

Destilacija je legitimna tehnika gde se manji model obučava na izlazima jačeg. Granične laboratorije redovno destiluju sopstvene modele kako bi stvorile jeftinije verzije. Ali kada konkurenti koriste destilaciju bez ovlašćenja, oni stiču moćne sposobnosti za delić troškova i vremena potrebnih za nezavisan razvoj.

Napadi su ciljali najdiferenciranije Claude-ove karakteristike: agentsko rezonovanje, korišćenje alata i kodiranje — iste sposobnosti koje pokreću Claude Opus 4.6 i Claude Sonnet 4.6.

Razmere i ciljevi svake kampanje

Lab	Razmene	Primarni ciljevi
DeepSeek	150,000+	Rezonovanje, ocenjivanje po rubrici modela nagrađivanja, zaobilaženje cenzure
Moonshot AI	3.4 miliona+	Agentsko rezonovanje, korišćenje alata, kompjuterski vid
MiniMax	13 miliona+	Agentsko kodiranje, orkestracija alata

DeepSeek je koristio značajnu tehniku: upite koji su tražili od Claude-a da artikuliše svoje interno rezonovanje korak po korak, efikasno generišući podatke za obuku lanca razmišljanja u velikoj meri. Takođe su koristili Claude-a za generisanje alternativa bezbednih od cenzure za politički osetljive upite — verovatno kako bi obučili sopstvene modele da usmere razgovore daleko od cenzurisanih tema. Anthropic je pratio ove naloge do specifičnih istraživača u laboratoriji.

Moonshot AI (Kimi modeli) koristio je stotine lažnih naloga putem više pristupnih puteva. U kasnijoj fazi, Moonshot se prebacio na ciljaniji pristup, pokušavajući da ekstrahuje i rekonstruiše Claude-ove tragove rezonovanja.

MiniMax je pokrenuo najveću kampanju sa preko 13 miliona razmena. Anthropic je detektovao ovu kampanju dok je još bila aktivna — pre nego što je MiniMax objavio model koji je obučavao. Kada je Anthropic objavio novi model tokom aktivne kampanje, MiniMax se preusmerio u roku od 24 sata, preusmeravajući skoro polovinu svog saobraćaja da uhvati najnovije sposobnosti.

Kako destilatori zaobilaze ograničenja pristupa

Anthropic ne nudi komercijalni pristup Claude-u u Kini iz razloga nacionalne bezbednosti. Laboratorije su to zaobišle putem komercijalnih proksi servisa koji preprodaju pristup graničnim modelima u velikoj meri.

Ovi servisi koriste ono što Anthropic naziva "arhitekturama hidra klastera": raširene mreže lažnih naloga koje distribuiraju saobraćaj preko API-ja i platformi oblaka trećih strana. Kada se jedan nalog zabrani, novi ga zameni. Jedna proksi mreža je istovremeno upravljala sa više od 20.000 lažnih naloga, mešajući saobraćaj destilacije sa nepovezanim zahtevima korisnika kako bi otežala detekciju.

Ono što destilaciju razlikuje od normalne upotrebe je obrazac. Jedan upit može izgledati bezopasno, ali kada varijacije stignu desetinama hiljada puta preko stotina koordinisanih naloga, svi ciljajući istu usku sposobnost, obrazac postaje jasan.

Implikacije po nacionalnu bezbednost

Nezakonito destilovani modeli nemaju sigurnosne ograde koje američke kompanije ugrađuju u granične sisteme. Ove ograde sprečavaju korišćenje AI-ja za razvoj biološkog oružja, sprovođenje ofanzivnih sajber operacija ili omogućavanje masovnog nadzora.

Modeli izgrađeni putem nezakonite destilacije verovatno neće zadržati te zaštite. Strane laboratorije mogu uneti nezaštićene sposobnosti u vojne, obaveštajne i nadzorne sisteme. Ako se destilovani modeli objave kao otvoreni kod, opasne sposobnosti se slobodno šire izvan kontrole bilo koje vlade.

Napadi destilacije takođe podrivaju američke kontrole izvoza. Bez uvida u ove napade, očigledno brza napredovanja ovih laboratorija mogu se pogrešno protumačiti kao dokaz da su kontrole izvoza neefikasne. U stvarnosti, napredovanja zavise od sposobnosti izvučenih iz američkih modela, a izvršavanje ekstrakcije u velikoj meri zahteva napredne čipove koje su kontrole izvoza osmišljene da ograniče.

Anthropic-ove kontramere

Anthropic primenjuje više odbrana protiv napada destilacije:

Detekcioni klasifikatori: Sistemi za bihevioralno otiske prstiju koji identifikuju obrasce destilacije u API saobraćaju, uključujući elicitation lanca razmišljanja koji se koristi za konstruisanje podataka za obuku rezonovanja
Razmena obaveštajnih podataka: Tehnički indikatori podeljeni sa drugim AI laboratorijama, provajderima oblaka i relevantnim vlastima za holističku sliku pejzaža destilacije
Kontrole pristupa: Pojačana verifikacija za obrazovne naloge, programe bezbednosnih istraživanja i startap organizacije — putevi koji se najčešće zloupotrebljavaju
Zaštitne mere na nivou modela: Kontramere na nivou proizvoda, API-ja i modela, osmišljene da smanje efikasnost izlaza za nezakonitu destilaciju bez degradiranja legitimne upotrebe

Anthropic je takođe povezao ova otkrića sa svojom ranijom podrškom za bezbednosne mogućnosti Claude koda za branioce, što je deo šire strategije da se osigura da sposobnosti graničnog AI-ja ostanu zaštićene.

Potreban odgovor na nivou cele industrije

Anthropic naglašava da nijedna kompanija ne može sama da reši napade destilacije. Kampanje iskorišćavaju komercijalne proksi servise, platforme oblaka trećih strana i praznine u verifikaciji naloga koje obuhvataju ceo AI ekosistem.

Rastući intenzitet i sofisticiranost ovih kampanja sužavaju prozor za delovanje. Anthropic je primetio da se destilatori brzo prilagođavaju: kada se objave novi modeli, napori za ekstrakciju se preusmeravaju u roku od nekoliko sati. Kada se nalozi zabrane, proksi mreže ih odmah zamenjuju putem arhitektura hidra klastera bez jedne tačke kvara.

Rešavanje pretnje zahteva koordinisano delovanje među AI kompanijama, provajderima oblaka i kreatorima politike. Anthropic je objavio svoja otkrića kako bi dokaze učinio dostupnim svima koji imaju ulogu u zaštiti sposobnosti graničnog AI-ja od neovlašćene ekstrakcije. Kompanija poziva na standarde verifikacije naloga na nivou cele industrije, okvire za deljenje obaveštajnih podataka o pretnjama i političku podršku za sprovođenje protiv nezakonite destilacije u velikoj meri.