Co jsou destilační útoky na AI?

Destilační útoky na AI zahrnují trénování méně schopného modelu na výstupech silnějšího modelu bez autorizace. Konkurenti generují masivní množství pečlivě navržených dotazů (promptů), aby extrahovali specifické schopnosti z hraničního modelu, a poté používají odpovědi k trénování svých vlastních systémů. Anthropic identifikoval přes 16 milionů nezákonných výměn napříč přibližně 24 000 podvodnými účty, které DeepSeek, Moonshot a MiniMax použily k extrakci schopností Claude.

Které společnosti destilovaly schopnosti Claude?

Anthropic identifikoval tři čínské AI laboratoře provádějící destilační kampaně v průmyslovém měřítku: DeepSeek (přes 150 000 výměn zaměřených na uvažování a obcházení cenzury), Moonshot AI (přes 3,4 milionu výměn zaměřených na agentní uvažování a používání nástrojů) a MiniMax (přes 13 milionů výměn zaměřených na agentní kódování a orchestraci nástrojů).

Proč jsou destilační útoky rizikem pro národní bezpečnost?

Nezákonně destilované modely postrádají bezpečnostní zábrany, které americké společnosti jako Anthropic zabudovávají do svých systémů. Tyto nechráněné modely mohou být nasazeny pro útočné kybernetické operace, dezinformační kampaně, masové sledování, a dokonce i podporu vývoje biologických zbraní. Pokud jsou destilované modely zveřejněny jako open-source, nebezpečné schopnosti se šíří mimo kontrolu jakékoli vlády, což podrývá exportní kontroly navržené k udržení americké AI výhody.

Jak DeepSeek, Moonshot a MiniMax získaly přístup ke Claude?

Laboratoře obešly regionální omezení přístupu Anthropicu pomocí komerčních proxy služeb, které ve velkém přeprodávají přístup k API Claude. Tyto služby provozují architektury 'hydra clusteru' s rozsáhlými sítěmi podvodných účtů distribuovaných napříč API Anthropicu a cloudovými platformami třetích stran. Jedna proxy síť spravovala více než 20 000 podvodných účtů současně, přičemž mísila destilační provoz s legitimními požadavky, aby se vyhnula detekci.

Jak Anthropic reaguje na destilační útoky?

Anthropic nasazuje několik protiopatření: klasifikátory pro behaviorální otisky prstů k detekci destilačních vzorů v API provozu, sdílení zpravodajských informací s dalšími AI laboratořemi a poskytovateli cloudu, posílené ověřování účtů a ochranná opatření na úrovni modelu, která snižují účinnost výstupu pro nezákonnou destilaci, aniž by se zhoršila služba pro legitimní uživatele. Anthropic také volá po koordinované reakci průmyslu a politiky.

Co konkrétně DeepSeek extrahoval z Claude?

DeepSeek se zaměřil na schopnosti uvažování Claude, úlohy hodnocení založené na rubrikách (díky čemuž Claude fungoval jako odměňovací model pro posilovací učení) a alternativy politicky citlivých dotazů, které jsou bezpečné z hlediska cenzury. Použili techniky, které žádaly Claude, aby krok za krokem vysvětlil své vnitřní uvažování, čímž generovali data pro trénování 'chain-of-thought' ve velkém měřítku. Anthropic tyto účty vysledoval ke konkrétním výzkumníkům v DeepSeeku.

Anthropic odhaluje destilační útoky ze strany DeepSeek a MiniMax

Anthropic odhaluje destilační kampaně v průmyslovém měřítku

Anthropic zveřejnil důkazy, že tři AI laboratoře — DeepSeek, Moonshot AI a MiniMax — vedly koordinované kampaně s cílem extrahovat schopnosti Claude prostřednictvím nezákonné destilace. Kampaně vygenerovaly přes 16 milionů výměn s Claude prostřednictvím přibližně 24 000 podvodných účtů, čímž porušily podmínky služby Anthropicu a regionální omezení přístupu.

Destilace je legitimní technika, kdy je menší model trénován na výstupech silnějšího modelu. Hraniční laboratoře pravidelně destilují své vlastní modely, aby vytvořily levnější verze. Když však konkurenti používají destilaci bez autorizace, získávají silné schopnosti za zlomek nákladů a času potřebného pro nezávislý vývoj.

Útoky se zaměřily na nejvíce odlišující funkce Claude: agentní uvažování, používání nástrojů a kódování – stejné schopnosti, které pohání Claude Opus 4.6 a Claude Sonnet 4.6.

Rozsah a cíle jednotlivých kampaní

Laboratoř	Výměny	Primární cíle
DeepSeek	150 000+	Uvažování, hodnocení modelem odměny, obcházení cenzury
Moonshot AI	3,4 milionu+	Agentní uvažování, používání nástrojů, počítačové vidění
MiniMax	13 milionů+	Agentní kódování, orchestrace nástrojů

DeepSeek použil pozoruhodnou techniku: promptování, které žádalo Claude, aby krok za krokem vysvětlil své vnitřní uvažování, čímž efektivně generoval tréninková data "chain-of-thought" ve velkém měřítku. Claude také použili k generování alternativ k politicky citlivým dotazům, které byly bezpečné z hlediska cenzury – pravděpodobně k trénování vlastních modelů, aby odklonily konverzace od cenzurovaných témat. Anthropic tyto účty vysledoval ke konkrétním výzkumníkům v laboratoři.

Moonshot AI (modely Kimi) využíval stovky podvodných účtů napříč několika přístupovými cestami. V pozdější fázi se Moonshot přeorientoval na cílenější přístup a pokusil se extrahovat a rekonstruovat stopy uvažování Claude.

MiniMax vedl největší kampaň s více než 13 miliony výměn. Anthropic tuto kampaň detekoval, když byla ještě aktivní – předtím, než MiniMax vydal model, na kterém trénoval. Když Anthropic během aktivní kampaně vydal nový model, MiniMax se během 24 hodin přeorientoval a přesměroval téměř polovinu svého provozu, aby zachytil nejnovější schopnosti.

Jak destilační procesy obchází omezení přístupu

Anthropic nenabízí komerční přístup k Claude v Číně z důvodů národní bezpečnosti. Laboratoře to obešly pomocí komerčních proxy služeb, které ve velkém přeprodávají přístup k hraničním modelům.

Tyto služby provozují to, co Anthropic nazývá architekturami "hydra clusteru": rozsáhlé sítě podvodných účtů, které distribuují provoz napříč API a cloudovými platformami třetích stran. Když je jeden účet zablokován, nahradí ho nový. Jedna proxy síť spravovala více než 20 000 podvodných účtů současně, přičemž mísila destilační provoz s nesouvisejícími zákaznickými požadavky, aby ztížila detekci.

Co odlišuje destilaci od běžného používání, je vzorec. Jednotlivý prompt se může jevit jako neškodný, ale když se jeho variace objeví desetitisícekrát napříč stovkami koordinovaných účtů, všechny zaměřené na stejnou úzkou schopnost, vzorec se stane jasným.

Důsledky pro národní bezpečnost

Nezákonně destilované modely postrádají bezpečnostní zábrany, které americké společnosti zabudovávají do hraničních systémů. Tyto zábrany brání použití AI k vývoji biologických zbraní, provádění útočných kybernetických operací nebo umožnění masového sledování.

Modely vytvořené nezákonnou destilací si tyto ochrany pravděpodobně neudrží. Zahraniční laboratoře mohou dodávat nechráněné schopnosti do vojenských, zpravodajských a sledovacích systémů. Pokud jsou destilované modely zveřejněny jako open-source, nebezpečné schopnosti se volně šíří mimo kontrolu jakékoli vlády.

Destilační útoky také podrývají americké exportní kontroly. Bez náhledu na tyto útoky, zdánlivě rychlý pokrok těchto laboratoří může být nesprávně interpretován jako důkaz neúčinnosti exportních kontrol. Ve skutečnosti pokroky závisí na schopnostech extrahovaných z amerických modelů a provedení extrakce ve velkém měřítku vyžaduje pokročilé čipy, které jsou exportní kontroly navrženy tak, aby je omezovaly.

Protiopatření Anthropicu

Anthropic nasazuje několik obranných opatření proti destilačním útokům:

Detekční klasifikátory: Systémy behaviorálního otisku prstu, které identifikují destilační vzory v provozu API, včetně získávání 'chain-of-thought' používaného k sestavování tréninkových dat pro uvažování
Sdílení zpravodajských informací: Technické ukazatele sdílené s dalšími AI laboratořemi, poskytovateli cloudu a příslušnými úřady pro celistvý obraz destilační krajiny
Kontroly přístupu: Posílené ověřování pro vzdělávací účty, programy bezpečnostního výzkumu a startupové organizace — cesty, které jsou nejčastěji zneužívány
Ochranná opatření na úrovni modelu: Protiopatření na úrovni produktu, API a modelu navržená tak, aby snížila účinnost výstupu pro nezákonnou destilaci, aniž by se zhoršilo legitimní použití

Anthropic také propojil tato zjištění se svou dřívější podporou schopností Claude Code Security pro obránce, což je součást širší strategie k zajištění ochrany hraničních schopností AI.

Je zapotřebí celoodvětvová reakce

Anthropic zdůrazňuje, že žádná jednotlivá společnost nemůže destilační útoky vyřešit sama. Kampaně zneužívají komerční proxy služby, cloudové platformy třetích stran a mezery v ověřování účtů, které pokrývají celý ekosystém AI.

Rostoucí intenzita a sofistikovanost těchto kampaní zkracuje dobu pro reakci. Anthropic pozoroval, že destilační útočníci se rychle přizpůsobují: když jsou vydány nové modely, úsilí o extrakci se během hodin přesměruje. Když jsou účty zakázány, proxy sítě je okamžitě nahradí prostřednictvím architektur 'hydra clusteru' bez jediného bodu selhání.

Řešení této hrozby vyžaduje koordinované akce mezi AI společnostmi, poskytovateli cloudu a tvůrci politik. Anthropic zveřejnil svá zjištění, aby zpřístupnil důkazy všem, kteří mají zájem na ochraně hraničních schopností AI před neoprávněnou extrakcí. Společnost vyzývá k celoodvětvovým standardům pro ověřování účtů, sdíleným rámcům zpravodajství o hrozbách a politické podpoře pro vymáhání proti nezákonné destilaci ve velkém měřítku.