Anthropic odhaluje destilační kampaně v průmyslovém měřítku
Anthropic zveřejnil důkazy, že tři AI laboratoře — DeepSeek, Moonshot AI a MiniMax — vedly koordinované kampaně s cílem extrahovat schopnosti Claude prostřednictvím nezákonné destilace. Kampaně vygenerovaly přes 16 milionů výměn s Claude prostřednictvím přibližně 24 000 podvodných účtů, čímž porušily podmínky služby Anthropicu a regionální omezení přístupu.
Destilace je legitimní technika, kdy je menší model trénován na výstupech silnějšího modelu. Hraniční laboratoře pravidelně destilují své vlastní modely, aby vytvořily levnější verze. Když však konkurenti používají destilaci bez autorizace, získávají silné schopnosti za zlomek nákladů a času potřebného pro nezávislý vývoj.
Útoky se zaměřily na nejvíce odlišující funkce Claude: agentní uvažování, používání nástrojů a kódování – stejné schopnosti, které pohání Claude Opus 4.6 a Claude Sonnet 4.6.
Rozsah a cíle jednotlivých kampaní
| Laboratoř | Výměny | Primární cíle |
|---|---|---|
| DeepSeek | 150 000+ | Uvažování, hodnocení modelem odměny, obcházení cenzury |
| Moonshot AI | 3,4 milionu+ | Agentní uvažování, používání nástrojů, počítačové vidění |
| MiniMax | 13 milionů+ | Agentní kódování, orchestrace nástrojů |
DeepSeek použil pozoruhodnou techniku: promptování, které žádalo Claude, aby krok za krokem vysvětlil své vnitřní uvažování, čímž efektivně generoval tréninková data "chain-of-thought" ve velkém měřítku. Claude také použili k generování alternativ k politicky citlivým dotazům, které byly bezpečné z hlediska cenzury – pravděpodobně k trénování vlastních modelů, aby odklonily konverzace od cenzurovaných témat. Anthropic tyto účty vysledoval ke konkrétním výzkumníkům v laboratoři.
Moonshot AI (modely Kimi) využíval stovky podvodných účtů napříč několika přístupovými cestami. V pozdější fázi se Moonshot přeorientoval na cílenější přístup a pokusil se extrahovat a rekonstruovat stopy uvažování Claude.
MiniMax vedl největší kampaň s více než 13 miliony výměn. Anthropic tuto kampaň detekoval, když byla ještě aktivní – předtím, než MiniMax vydal model, na kterém trénoval. Když Anthropic během aktivní kampaně vydal nový model, MiniMax se během 24 hodin přeorientoval a přesměroval téměř polovinu svého provozu, aby zachytil nejnovější schopnosti.
Jak destilační procesy obchází omezení přístupu
Anthropic nenabízí komerční přístup k Claude v Číně z důvodů národní bezpečnosti. Laboratoře to obešly pomocí komerčních proxy služeb, které ve velkém přeprodávají přístup k hraničním modelům.
Tyto služby provozují to, co Anthropic nazývá architekturami "hydra clusteru": rozsáhlé sítě podvodných účtů, které distribuují provoz napříč API a cloudovými platformami třetích stran. Když je jeden účet zablokován, nahradí ho nový. Jedna proxy síť spravovala více než 20 000 podvodných účtů současně, přičemž mísila destilační provoz s nesouvisejícími zákaznickými požadavky, aby ztížila detekci.
Co odlišuje destilaci od běžného používání, je vzorec. Jednotlivý prompt se může jevit jako neškodný, ale když se jeho variace objeví desetitisícekrát napříč stovkami koordinovaných účtů, všechny zaměřené na stejnou úzkou schopnost, vzorec se stane jasným.
Důsledky pro národní bezpečnost
Nezákonně destilované modely postrádají bezpečnostní zábrany, které americké společnosti zabudovávají do hraničních systémů. Tyto zábrany brání použití AI k vývoji biologických zbraní, provádění útočných kybernetických operací nebo umožnění masového sledování.
Modely vytvořené nezákonnou destilací si tyto ochrany pravděpodobně neudrží. Zahraniční laboratoře mohou dodávat nechráněné schopnosti do vojenských, zpravodajských a sledovacích systémů. Pokud jsou destilované modely zveřejněny jako open-source, nebezpečné schopnosti se volně šíří mimo kontrolu jakékoli vlády.
Destilační útoky také podrývají americké exportní kontroly. Bez náhledu na tyto útoky, zdánlivě rychlý pokrok těchto laboratoří může být nesprávně interpretován jako důkaz neúčinnosti exportních kontrol. Ve skutečnosti pokroky závisí na schopnostech extrahovaných z amerických modelů a provedení extrakce ve velkém měřítku vyžaduje pokročilé čipy, které jsou exportní kontroly navrženy tak, aby je omezovaly.
Protiopatření Anthropicu
Anthropic nasazuje několik obranných opatření proti destilačním útokům:
- Detekční klasifikátory: Systémy behaviorálního otisku prstu, které identifikují destilační vzory v provozu API, včetně získávání 'chain-of-thought' používaného k sestavování tréninkových dat pro uvažování
- Sdílení zpravodajských informací: Technické ukazatele sdílené s dalšími AI laboratořemi, poskytovateli cloudu a příslušnými úřady pro celistvý obraz destilační krajiny
- Kontroly přístupu: Posílené ověřování pro vzdělávací účty, programy bezpečnostního výzkumu a startupové organizace — cesty, které jsou nejčastěji zneužívány
- Ochranná opatření na úrovni modelu: Protiopatření na úrovni produktu, API a modelu navržená tak, aby snížila účinnost výstupu pro nezákonnou destilaci, aniž by se zhoršilo legitimní použití
Anthropic také propojil tato zjištění se svou dřívější podporou schopností Claude Code Security pro obránce, což je součást širší strategie k zajištění ochrany hraničních schopností AI.
Je zapotřebí celoodvětvová reakce
Anthropic zdůrazňuje, že žádná jednotlivá společnost nemůže destilační útoky vyřešit sama. Kampaně zneužívají komerční proxy služby, cloudové platformy třetích stran a mezery v ověřování účtů, které pokrývají celý ekosystém AI.
Rostoucí intenzita a sofistikovanost těchto kampaní zkracuje dobu pro reakci. Anthropic pozoroval, že destilační útočníci se rychle přizpůsobují: když jsou vydány nové modely, úsilí o extrakci se během hodin přesměruje. Když jsou účty zakázány, proxy sítě je okamžitě nahradí prostřednictvím architektur 'hydra clusteru' bez jediného bodu selhání.
Řešení této hrozby vyžaduje koordinované akce mezi AI společnostmi, poskytovateli cloudu a tvůrci politik. Anthropic zveřejnil svá zjištění, aby zpřístupnil důkazy všem, kteří mají zájem na ochraně hraničních schopností AI před neoprávněnou extrakcí. Společnost vyzývá k celoodvětvovým standardům pro ověřování účtů, sdíleným rámcům zpravodajství o hrozbách a politické podpoře pro vymáhání proti nezákonné destilaci ve velkém měřítku.
Často kladené dotazy
Co jsou destilační útoky na AI?
Které společnosti destilovaly schopnosti Claude?
Proč jsou destilační útoky rizikem pro národní bezpečnost?
Jak DeepSeek, Moonshot a MiniMax získaly přístup ke Claude?
Jak Anthropic reaguje na destilační útoky?
Co konkrétně DeepSeek extrahoval z Claude?
Buďte v obraze
Dostávejte nejnovější AI zprávy do schránky.
