Inilantad ng Anthropic ang mga Kampanya ng Distillation na Pang-industriya ang Saklaw
Naglabas ang Anthropic ng ebidensya na tatlong laboratoryo ng AI — DeepSeek, Moonshot AI, at MiniMax — ang nagpatakbo ng mga pinag-ugnay na kampanya upang makuha ang mga kakayahan ng Claude sa pamamagitan ng iligal na distillation. Ang mga kampanya ay bumuo ng mahigit 16 milyong palitan kay Claude sa pamamagitan ng humigit-kumulang 24,000 mapanlinlang na account, na lumalabag sa mga tuntunin ng serbisyo at mga paghihigpit sa rehiyonal na pag-access ng Anthropic.
Ang distillation ay isang lehitimong teknik kung saan ang isang mas maliit na modelo ay sinasanay gamit ang mga output mula sa isang mas malakas na modelo. Regular na nagdi-distill ang mga frontier lab ng kanilang sariling mga modelo upang makagawa ng mas murang bersyon. Ngunit kapag ginagamit ng mga kakumpitensya ang distillation nang walang pahintulot, nakukuha nila ang malalakas na kakayahan sa bahagi lamang ng gastos at oras na kailangan para sa malayang pagbuo.
Ang mga pag-atake ay nagta-target sa mga pinaka-pinagkaiba-ibang feature ni Claude: agentic reasoning, paggamit ng tool, at coding — ang parehong mga kakayahan na nagpapagana sa Claude Opus 4.6 at Claude Sonnet 4.6.
Saklaw at mga Target ng Bawat Kampanya
| Lab | Palitan | Pangunahing Target |
|---|---|---|
| DeepSeek | 150,000+ | Pangangatwiran, pagmamarka ng reward-model, mga paraan upang maiwasan ang censorship |
| Moonshot AI | 3.4 milyon+ | Agentic reasoning, paggamit ng tool, computer vision |
| MiniMax | 13 milyon+ | Agentic coding, orkestrasyon ng tool |
Gumamit ang DeepSeek ng isang kapansin-pansing teknik: mga prompt na humiling kay Claude na ipahayag ang panloob nitong pangangatwiran nang sunud-sunod, na epektibong bumubuo ng data ng pagsasanay ng chain-of-thought sa malawakang saklaw. Ginamit din nila si Claude upang bumuo ng mga paraan upang maiwasan ang censorship para sa mga sensitibong pampulitikang katanungan — malamang upang sanayin ang kanilang sariling mga modelo na ilihis ang mga usapan mula sa mga censored na paksa. Sinusubaybayan ng Anthropic ang mga account na ito sa mga partikular na mananaliksik sa lab.
Ang Moonshot AI (mga modelong Kimi) ay gumamit ng daan-daang mapanlinlang na account sa maraming pathway ng pag-access. Sa huling bahagi, lumipat ang Moonshot sa isang mas targeted na diskarte, na sinusubukang makuha at buuin muli ang mga reasoning trace ni Claude.
Pinatakbo ng MiniMax ang pinakamalaking kampanya na may mahigit 13 milyong palitan. Natukoy ng Anthropic ang kampanyang ito habang aktibo pa ito — bago inilabas ng MiniMax ang modelong sinasanay nito. Nang maglabas ang Anthropic ng bagong modelo sa panahon ng aktibong kampanya, lumipat ang MiniMax sa loob ng 24 na oras, inilihis ang halos kalahati ng kanilang traffic upang makuha ang pinakabagong mga kakayahan.
Paano Nilalampasan ng mga Distiller ang mga Paghihigpit sa Pag-access
Hindi nag-aalok ang Anthropic ng komersyal na pag-access sa Claude sa Tsina para sa mga kadahilanang pang-seguridad ng bansa. Nilampasan ito ng mga lab sa pamamagitan ng mga serbisyo ng komersyal na proxy na muling nagbebenta ng frontier model access sa malawakang saklaw.
Ang mga serbisyong ito ay nagpapatakbo ng tinatawag ng Anthropic na mga "hydra cluster" architecture: malalaking network ng mga mapanlinlang na account na namamahagi ng traffic sa API at mga third-party cloud platform. Kapag na-ban ang isang account, papalitan ito ng bago. Isang proxy network ang namamahala ng mahigit 20,000 mapanlinlang na account nang sabay-sabay, hinahalo ang distillation traffic sa mga hindi nauugnay na kahilingan ng customer upang mas mahirap matukoy.
Ang pinagkaiba ng distillation sa normal na paggamit ay ang pattern. Ang isang prompt ay maaaring mukhang benign, ngunit kapag ang mga variation ay dumarating ng sampu-sampung libong beses sa daan-daang pinag-ugnay na account, lahat ay nagta-target sa parehong makitid na kakayahan, nagiging malinaw ang pattern.
Mga Implikasyon sa Pambansang Seguridad
Ang mga iligal na na-distill na modelo ay walang mga safety guardrail na binuo ng mga kumpanya sa US sa kanilang frontier system. Ang mga guardrail na ito ay pumipigil sa AI na gamitin upang bumuo ng bioweapon, magsagawa ng mga opensibong operasyon sa cyber, o magbigay-daan sa malawakang pagsubaybay.
Ang mga modelong binuo sa pamamagitan ng iligal na distillation ay malamang na hindi mapanatili ang mga proteksyon na iyon. Maaaring pakainin ng mga dayuhang lab ang mga hindi protektadong kakayahan sa mga sistema ng militar, intelligence, at pagsubaybay. Kung ang mga na-distill na modelo ay open-source, ang mga mapanganib na kakayahan ay kumakalat nang malaya sa labas ng kontrol ng anumang gobyerno.
Ang mga pag-atake ng distillation ay nagpapahina din sa mga kontrol sa pag-export ng US. Kung walang visibility sa mga pag-atakeng ito, ang tila mabilis na pag-unlad ng mga lab na ito ay maaaring maling bigyang-kahulugan bilang ebidensya na hindi epektibo ang mga kontrol sa pag-export. Sa katunayan, ang mga pag-unlad ay nakasalalay sa mga kakayahang nakuha mula sa mga modelong Amerikano, at ang pagsasagawa ng extraction sa malawakang saklaw ay nangangailangan ng mga advanced na chip na idinisenyo upang pigilan ng mga kontrol sa pag-export.
Mga Countermeasure ng Anthropic
Ang Anthropic ay nagde-deploy ng maraming depensa laban sa mga pag-atake ng distillation:
- Mga classifier ng pagtukoy: Mga sistema ng behavioral fingerprinting na tumutukoy sa mga pattern ng distillation sa API traffic, kabilang ang chain-of-thought elicitation na ginagamit upang bumuo ng data ng pagsasanay sa pangangatwiran
- Pagbabahagi ng Impormasyon: Ang mga teknikal na indikasyon ay ibinabahagi sa iba pang mga lab ng AI, cloud provider, at mga nauugnay na awtoridad para sa isang holistic na pagtingin sa distillation landscape
- Mga kontrol sa pag-access: Pinatibay na pagpapatunay para sa mga educational account, security research program, at startup organizations — ang mga pathway na pinakakaraniwang pinagsasamantalahan
- Mga proteksiyon sa antas ng modelo: Mga countermeasure sa antas ng produkto, API, at modelo na idinisenyo upang bawasan ang pagiging epektibo ng output para sa iligal na distillation nang hindi binabawasan ang lehitimong paggamit
Ikonekta din ng Anthropic ang mga natuklasan na ito sa nauna nitong suporta para sa mga kakayahan ng Claude Code Security para sa mga tagapagtanggol, bahagi ng isang mas malawak na diskarte upang matiyak na mananatiling protektado ang mga kakayahan ng frontier AI.
Kailangan ang Tugon ng Buong Industriya
Binibigyang-diin ng Anthropic na walang isang kumpanya ang makakalutas sa mga pag-atake ng distillation nang mag-isa. Pinagsasamantalahan ng mga kampanya ang mga serbisyo ng komersyal na proxy, mga third-party cloud platform, at mga puwang sa pagpapatunay ng account na sumasaklaw sa buong ecosystem ng AI.
Ang lumalaking intensidad at sopistikasyon ng mga kampanyang ito ay nagpapaliit sa panahon ng pagkilos. Napansin ng Anthropic na mabilis na umaangkop ang mga distiller: kapag inilabas ang mga bagong modelo, lumilipat ang mga pagsisikap sa extraction sa loob ng ilang oras. Kapag na-ban ang mga account, agad itong pinapalitan ng mga proxy network sa pamamagitan ng hydra cluster architecture na walang iisang punto ng pagkabigo.
Ang pagtugon sa banta ay nangangailangan ng pinag-ugnay na pagkilos sa pagitan ng mga kumpanya ng AI, cloud provider, at mga gumagawa ng patakaran. Inilathala ng Anthropic ang mga natuklasan nito upang gawing available ang ebidensya sa lahat ng may stake sa pagprotekta sa mga kakayahan ng frontier AI mula sa hindi awtorisadong extraction. Nananawagan ang kumpanya para sa mga pamantayan ng industriya sa pagpapatunay ng account, mga ibinahaging framework ng pagtukoy ng banta, at suporta sa patakaran para sa pagpapatupad laban sa iligal na distillation sa malawakang saklaw.
Orihinal na pinagmulan
https://www.anthropic.com/news/detecting-and-preventing-distillation-attacksMga Karaniwang Tanong
Ano ang mga pag-atake ng AI distillation?
Aling mga kumpanya ang nag-distill ng mga kakayahan ng Claude?
Bakit panganib sa pambansang seguridad ang mga pag-atake ng distillation?
Paano na-access nina DeepSeek, Moonshot, at MiniMax si Claude?
Paano tumutugon ang Anthropic sa mga pag-atake ng distillation?
Ano ang partikular na kinuha ng DeepSeek mula kay Claude?
Manatiling Updated
Kunin ang pinakabagong AI news sa iyong inbox.
