Ano ang mga pag-atake ng AI distillation?

Ang mga pag-atake ng AI distillation ay kinabibilangan ng pagtuturo sa isang mas mababang kakayahan na modelo gamit ang mga output ng isang mas malakas na modelo nang walang pahintulot. Ang mga kakumpitensya ay bumubuo ng napakaraming dami ng maingat na ginawang mga prompt upang makuha ang mga partikular na kakayahan mula sa isang frontier model, pagkatapos ay ginagamit ang mga tugon upang sanayin ang kanilang sariling mga sistema. Natukoy ng Anthropic ang mahigit 16 milyong iligal na palitan sa humigit-kumulang 24,000 mapanlinlang na account na ginamit nina DeepSeek, Moonshot, at MiniMax upang makuha ang mga kakayahan ng Claude.

Aling mga kumpanya ang nag-distill ng mga kakayahan ng Claude?

Natukoy ng Anthropic ang tatlong Chinese AI laboratoryo na nagsasagawa ng mga kampanya ng distillation na pang-industriya ang saklaw: DeepSeek (mahigit 150,000 palitan na nagta-target sa pangangatwiran at pag-iwas sa censorship), Moonshot AI (mahigit 3.4 milyong palitan na nagta-target sa agentic reasoning at paggamit ng tool), at MiniMax (mahigit 13 milyong palitan na nagta-target sa agentic coding at tool orchestration).

Bakit panganib sa pambansang seguridad ang mga pag-atake ng distillation?

Ang mga iligal na na-distill na modelo ay walang mga safety guardrail na binuo ng mga kumpanya sa US tulad ng Anthropic sa kanilang mga sistema. Ang mga hindi protektadong modelo na ito ay maaaring magamit para sa mga opensibong operasyon sa cyber, mga kampanya ng disinformation, malawakang pagsubaybay, at maging suporta sa pagbuo ng bioweapon. Kung ang mga na-distill na modelo ay open-source, ang mga mapanganib na kakayahan ay kumakalat nang malaya sa labas ng kontrol ng anumang gobyerno, na nagpapahina sa mga kontrol sa pag-export na idinisenyo upang mapanatili ang kalamangan ng Amerika sa AI.

Paano na-access nina DeepSeek, Moonshot, at MiniMax si Claude?

Nilampasan ng mga lab ang mga paghihigpit sa rehiyonal na pag-access ng Anthropic gamit ang mga serbisyo ng komersyal na proxy na muling nagbebenta ng Claude API access sa malawakang saklaw. Ang mga serbisyong ito ay nagpapatakbo ng mga hydra cluster architecture na may malawak na network ng mga mapanlinlang na account na ipinamamahagi sa API ng Anthropic at mga third-party cloud platform. Isang proxy network ang namamahala ng mahigit 20,000 mapanlinlang na account nang sabay-sabay, hinahalo ang distillation traffic sa mga lehitimong kahilingan upang maiwasan ang pagtukoy.

Paano tumutugon ang Anthropic sa mga pag-atake ng distillation?

Ang Anthropic ay nagde-deploy ng maraming countermeasure: behavioral fingerprinting classifiers upang matukoy ang mga pattern ng distillation sa API traffic, pagbabahagi ng impormasyon sa ibang mga lab ng AI at cloud provider, pinatibay na pagpapatunay ng account, at mga proteksiyon sa antas ng modelo na nagpapababa ng pagiging epektibo ng output para sa iligal na distillation nang hindi binabawasan ang serbisyo para sa mga lehitimong gumagamit. Nananawagan din ang Anthropic para sa magkakaugnay na tugon mula sa industriya at patakaran.

Ano ang partikular na kinuha ng DeepSeek mula kay Claude?

Tina-target ng DeepSeek ang mga kakayahan sa pangangatwiran ni Claude, mga gawain sa pagmamarka na batay sa rubric (ginagawang reward model si Claude para sa reinforcement learning), at mga paraan upang maiwasan ang censorship para sa mga sensitibong pampulitikang katanungan. Gumamit sila ng mga pamamaraan na humiling kay Claude na ipahayag ang panloob nitong pangangatwiran nang sunud-sunod, na bumubuo ng data ng pagsasanay ng chain-of-thought sa malawakang saklaw. Sinusubaybayan ng Anthropic ang mga account na ito sa mga partikular na mananaliksik sa DeepSeek.

Inilantad ng Anthropic ang mga Pag-atake ng Distillation nina DeepSeek at MiniMax

Inilantad ng Anthropic ang mga Kampanya ng Distillation na Pang-industriya ang Saklaw

Naglabas ang Anthropic ng ebidensya na tatlong laboratoryo ng AI — DeepSeek, Moonshot AI, at MiniMax — ang nagpatakbo ng mga pinag-ugnay na kampanya upang makuha ang mga kakayahan ng Claude sa pamamagitan ng iligal na distillation. Ang mga kampanya ay bumuo ng mahigit 16 milyong palitan kay Claude sa pamamagitan ng humigit-kumulang 24,000 mapanlinlang na account, na lumalabag sa mga tuntunin ng serbisyo at mga paghihigpit sa rehiyonal na pag-access ng Anthropic.

Ang distillation ay isang lehitimong teknik kung saan ang isang mas maliit na modelo ay sinasanay gamit ang mga output mula sa isang mas malakas na modelo. Regular na nagdi-distill ang mga frontier lab ng kanilang sariling mga modelo upang makagawa ng mas murang bersyon. Ngunit kapag ginagamit ng mga kakumpitensya ang distillation nang walang pahintulot, nakukuha nila ang malalakas na kakayahan sa bahagi lamang ng gastos at oras na kailangan para sa malayang pagbuo.

Ang mga pag-atake ay nagta-target sa mga pinaka-pinagkaiba-ibang feature ni Claude: agentic reasoning, paggamit ng tool, at coding — ang parehong mga kakayahan na nagpapagana sa Claude Opus 4.6 at Claude Sonnet 4.6.

Saklaw at mga Target ng Bawat Kampanya

Lab	Palitan	Pangunahing Target
DeepSeek	150,000+	Pangangatwiran, pagmamarka ng reward-model, mga paraan upang maiwasan ang censorship
Moonshot AI	3.4 milyon+	Agentic reasoning, paggamit ng tool, computer vision
MiniMax	13 milyon+	Agentic coding, orkestrasyon ng tool

Gumamit ang DeepSeek ng isang kapansin-pansing teknik: mga prompt na humiling kay Claude na ipahayag ang panloob nitong pangangatwiran nang sunud-sunod, na epektibong bumubuo ng data ng pagsasanay ng chain-of-thought sa malawakang saklaw. Ginamit din nila si Claude upang bumuo ng mga paraan upang maiwasan ang censorship para sa mga sensitibong pampulitikang katanungan — malamang upang sanayin ang kanilang sariling mga modelo na ilihis ang mga usapan mula sa mga censored na paksa. Sinusubaybayan ng Anthropic ang mga account na ito sa mga partikular na mananaliksik sa lab.

Ang Moonshot AI (mga modelong Kimi) ay gumamit ng daan-daang mapanlinlang na account sa maraming pathway ng pag-access. Sa huling bahagi, lumipat ang Moonshot sa isang mas targeted na diskarte, na sinusubukang makuha at buuin muli ang mga reasoning trace ni Claude.

Pinatakbo ng MiniMax ang pinakamalaking kampanya na may mahigit 13 milyong palitan. Natukoy ng Anthropic ang kampanyang ito habang aktibo pa ito — bago inilabas ng MiniMax ang modelong sinasanay nito. Nang maglabas ang Anthropic ng bagong modelo sa panahon ng aktibong kampanya, lumipat ang MiniMax sa loob ng 24 na oras, inilihis ang halos kalahati ng kanilang traffic upang makuha ang pinakabagong mga kakayahan.

Paano Nilalampasan ng mga Distiller ang mga Paghihigpit sa Pag-access

Hindi nag-aalok ang Anthropic ng komersyal na pag-access sa Claude sa Tsina para sa mga kadahilanang pang-seguridad ng bansa. Nilampasan ito ng mga lab sa pamamagitan ng mga serbisyo ng komersyal na proxy na muling nagbebenta ng frontier model access sa malawakang saklaw.

Ang mga serbisyong ito ay nagpapatakbo ng tinatawag ng Anthropic na mga "hydra cluster" architecture: malalaking network ng mga mapanlinlang na account na namamahagi ng traffic sa API at mga third-party cloud platform. Kapag na-ban ang isang account, papalitan ito ng bago. Isang proxy network ang namamahala ng mahigit 20,000 mapanlinlang na account nang sabay-sabay, hinahalo ang distillation traffic sa mga hindi nauugnay na kahilingan ng customer upang mas mahirap matukoy.

Ang pinagkaiba ng distillation sa normal na paggamit ay ang pattern. Ang isang prompt ay maaaring mukhang benign, ngunit kapag ang mga variation ay dumarating ng sampu-sampung libong beses sa daan-daang pinag-ugnay na account, lahat ay nagta-target sa parehong makitid na kakayahan, nagiging malinaw ang pattern.

Mga Implikasyon sa Pambansang Seguridad

Ang mga iligal na na-distill na modelo ay walang mga safety guardrail na binuo ng mga kumpanya sa US sa kanilang frontier system. Ang mga guardrail na ito ay pumipigil sa AI na gamitin upang bumuo ng bioweapon, magsagawa ng mga opensibong operasyon sa cyber, o magbigay-daan sa malawakang pagsubaybay.

Ang mga modelong binuo sa pamamagitan ng iligal na distillation ay malamang na hindi mapanatili ang mga proteksyon na iyon. Maaaring pakainin ng mga dayuhang lab ang mga hindi protektadong kakayahan sa mga sistema ng militar, intelligence, at pagsubaybay. Kung ang mga na-distill na modelo ay open-source, ang mga mapanganib na kakayahan ay kumakalat nang malaya sa labas ng kontrol ng anumang gobyerno.

Ang mga pag-atake ng distillation ay nagpapahina din sa mga kontrol sa pag-export ng US. Kung walang visibility sa mga pag-atakeng ito, ang tila mabilis na pag-unlad ng mga lab na ito ay maaaring maling bigyang-kahulugan bilang ebidensya na hindi epektibo ang mga kontrol sa pag-export. Sa katunayan, ang mga pag-unlad ay nakasalalay sa mga kakayahang nakuha mula sa mga modelong Amerikano, at ang pagsasagawa ng extraction sa malawakang saklaw ay nangangailangan ng mga advanced na chip na idinisenyo upang pigilan ng mga kontrol sa pag-export.

Mga Countermeasure ng Anthropic

Ang Anthropic ay nagde-deploy ng maraming depensa laban sa mga pag-atake ng distillation:

Mga classifier ng pagtukoy: Mga sistema ng behavioral fingerprinting na tumutukoy sa mga pattern ng distillation sa API traffic, kabilang ang chain-of-thought elicitation na ginagamit upang bumuo ng data ng pagsasanay sa pangangatwiran
Pagbabahagi ng Impormasyon: Ang mga teknikal na indikasyon ay ibinabahagi sa iba pang mga lab ng AI, cloud provider, at mga nauugnay na awtoridad para sa isang holistic na pagtingin sa distillation landscape
Mga kontrol sa pag-access: Pinatibay na pagpapatunay para sa mga educational account, security research program, at startup organizations — ang mga pathway na pinakakaraniwang pinagsasamantalahan
Mga proteksiyon sa antas ng modelo: Mga countermeasure sa antas ng produkto, API, at modelo na idinisenyo upang bawasan ang pagiging epektibo ng output para sa iligal na distillation nang hindi binabawasan ang lehitimong paggamit

Ikonekta din ng Anthropic ang mga natuklasan na ito sa nauna nitong suporta para sa mga kakayahan ng Claude Code Security para sa mga tagapagtanggol, bahagi ng isang mas malawak na diskarte upang matiyak na mananatiling protektado ang mga kakayahan ng frontier AI.

Kailangan ang Tugon ng Buong Industriya

Binibigyang-diin ng Anthropic na walang isang kumpanya ang makakalutas sa mga pag-atake ng distillation nang mag-isa. Pinagsasamantalahan ng mga kampanya ang mga serbisyo ng komersyal na proxy, mga third-party cloud platform, at mga puwang sa pagpapatunay ng account na sumasaklaw sa buong ecosystem ng AI.

Ang lumalaking intensidad at sopistikasyon ng mga kampanyang ito ay nagpapaliit sa panahon ng pagkilos. Napansin ng Anthropic na mabilis na umaangkop ang mga distiller: kapag inilabas ang mga bagong modelo, lumilipat ang mga pagsisikap sa extraction sa loob ng ilang oras. Kapag na-ban ang mga account, agad itong pinapalitan ng mga proxy network sa pamamagitan ng hydra cluster architecture na walang iisang punto ng pagkabigo.

Ang pagtugon sa banta ay nangangailangan ng pinag-ugnay na pagkilos sa pagitan ng mga kumpanya ng AI, cloud provider, at mga gumagawa ng patakaran. Inilathala ng Anthropic ang mga natuklasan nito upang gawing available ang ebidensya sa lahat ng may stake sa pagprotekta sa mga kakayahan ng frontier AI mula sa hindi awtorisadong extraction. Nananawagan ang kumpanya para sa mga pamantayan ng industriya sa pagpapatunay ng account, mga ibinahaging framework ng pagtukoy ng banta, at suporta sa patakaran para sa pagpapatupad laban sa iligal na distillation sa malawakang saklaw.