Čo sú útoky destilácie AI?

Útoky destilácie AI zahŕňajú trénovanie menej schopného modelu na výstupoch silnejšieho modelu bez povolenia. Konkurenti generujú obrovské množstvá starostlivo pripravených promptov na extrakciu špecifických schopností z hraničného modelu a potom používajú odpovede na trénovanie svojich vlastných systémov. Anthropic identifikoval viac ako 16 miliónov nezákonných výmen prostredníctvom približne 24 000 podvodných účtov používaných spoločnosťami DeepSeek, Moonshot a MiniMax na extrakciu schopností Claude.

Ktoré spoločnosti destilovali schopnosti Claude?

Anthropic identifikoval tri čínske AI laboratóriá, ktoré vykonávali destilačné kampane v priemyselnom rozsahu: DeepSeek (viac ako 150 000 výmen zameraných na uvažovanie a obchádzanie cenzúry), Moonshot AI (viac ako 3,4 milióna výmen zameraných na agentické uvažovanie a používanie nástrojov) a MiniMax (viac ako 13 miliónov výmen zameraných na agentické kódovanie a orchestráciu nástrojov).

Prečo sú útoky destilácie rizikom pre národnú bezpečnosť?

Nezákonne destilované modely nemajú bezpečnostné zábrany, ktoré americké spoločnosti ako Anthropic zabudovávajú do svojich systémov. Tieto nechránené modely môžu byť nasadené na útočné kybernetické operácie, dezinformačné kampane, masové sledovanie a dokonca aj podporu vývoja biologických zbraní. Ak sú destilované modely s otvoreným zdrojovým kódom, nebezpečné schopnosti sa šíria mimo kontrolu ktorejkoľvek vlády, čo podkopáva exportné kontroly navrhnuté na udržanie americkej výhody v oblasti AI.

Ako DeepSeek, Moonshot a MiniMax získali prístup k Claude?

Laboratóriá obišli regionálne obmedzenia prístupu spoločnosti Anthropic pomocou komerčných proxy služieb, ktoré hromadne predávajú prístup k API Claude. Tieto služby prevádzkujú architektúry klastrov „hydra“ s rozsiahlymi sieťami podvodných účtov distribuovaných naprieč API Anthropic a cloudovými platformami tretích strán. Jedna proxy sieť spravovala viac ako 20 000 podvodných účtov súčasne, pričom miešala destilačnú prevádzku s legitímnymi požiadavkami, aby sa predišlo detekcii.

Ako Anthropic reaguje na útoky destilácie?

Anthropic nasadzuje viacero protiopatrení: klasifikátory na základe behaviorálneho odtlačku prsta na detekciu destilačných vzorcov v prevádzke API, zdieľanie spravodajských informácií s inými laboratóriami AI a poskytovateľmi cloudu, posilnenie overovania účtov a ochranné opatrenia na úrovni modelu, ktoré znižujú účinnosť výstupu pre nezákonnú destiláciu bez zhoršenia služby pre legitímnych používateľov. Anthropic tiež vyzýva na koordinované priemyselné a politické reakcie.

Čo konkrétne DeepSeek extrahoval z Claude?

DeepSeek sa zameral na schopnosti uvažovania Claude, úlohy hodnotenia založené na rubrike (čím Claude fungoval ako model odmeny pre posilňovacie učenie) a alternatívy bezpečné pred cenzúrou pre politicky citlivé otázky. Použili techniky, ktoré žiadali Claude, aby krok za krokom vyjadril svoje vnútorné uvažovanie, čím generovali tréningové údaje typu „chain-of-thought“ vo veľkom rozsahu. Anthropic vystopoval tieto účty k konkrétnym výskumníkom v DeepSeek.

Anthropic odhaľuje útoky destilácie zo strany DeepSeek a MiniMax

Anthropic odhaľuje destilačné kampane v priemyselnom rozsahu

Anthropic zverejnil dôkazy, že tri AI laboratóriá — DeepSeek, Moonshot AI a MiniMax — viedli koordinované kampane na extrakciu schopností Claude prostredníctvom nezákonnej destilácie. Kampane vygenerovali viac ako 16 miliónov výmen s Claude prostredníctvom približne 24 000 podvodných účtov, čím porušili podmienky služby Anthropic a regionálne obmedzenia prístupu.

Destilácia je legitímna technika, pri ktorej sa menší model trénuje na výstupoch silnejšieho modelu. Hraničné laboratóriá pravidelne destilujú svoje vlastné modely, aby vytvorili lacnejšie verzie. Ak však konkurenti používajú destiláciu bez povolenia, získavajú výkonné schopnosti za zlomok nákladov a času potrebného na nezávislý vývoj.

Útoky sa zamerali na najviac odlišné funkcie Claude: agentické uvažovanie, používanie nástrojov a kódovanie — rovnaké schopnosti, ktoré poháňajú Claude Opus 4.6 a Claude Sonnet 4.6.

Rozsah a ciele jednotlivých kampaní

Laboratórium	Výmeny	Primárne ciele
DeepSeek	150,000+	Uvažovanie, hodnotenie modelu odmeny, obchádzanie cenzúry
Moonshot AI	3.4 million+	Agentické uvažovanie, používanie nástrojov, počítačové videnie
MiniMax	13 million+	Agentické kódovanie, orchestrácia nástrojov

DeepSeek použil pozoruhodnú techniku: prompty, ktoré žiadali Claude, aby krok za krokom vyjadril svoje vnútorné uvažovanie, čím efektívne generoval tréningové údaje typu „chain-of-thought“ vo veľkom rozsahu. Tiež použili Claude na generovanie alternatív bezpečných pred cenzúrou pre politicky citlivé otázky — pravdepodobne na trénovanie ich vlastných modelov, aby odklonili konverzácie od cenzurovaných tém. Anthropic vystopoval tieto účty k špecifickým výskumníkom v laboratóriu.

Moonshot AI (modely Kimi) zamestnal stovky podvodných účtov naprieč viacerými prístupovými cestami. V neskoršej fáze sa Moonshot preorientoval na cielenejší prístup, pokúšajúc sa extrahovať a rekonštruovať stopy uvažovania Claude.

MiniMax viedol najväčšiu kampaň s viac ako 13 miliónmi výmen. Anthropic túto kampaň detekoval, kým bola stále aktívna — predtým, ako MiniMax vydal model, ktorý trénoval. Keď Anthropic počas aktívnej kampane vydal nový model, MiniMax sa do 24 hodín preorientoval a presmeroval takmer polovicu svojej prevádzky, aby zachytil najnovšie schopnosti.

Ako destilátori obchádzajú obmedzenia prístupu

Anthropic neponúka komerčný prístup k Claude v Číne z dôvodov národnej bezpečnosti. Laboratóriá to obišli pomocou komerčných proxy služieb, ktoré hromadne predávajú prístup k hraničným modelom.

Tieto služby prevádzkujú to, čo Anthropic nazýva architektúrami „hydra klastra“: rozsiahle siete podvodných účtov, ktoré distribuujú prevádzku naprieč API a cloudovými platformami tretích strán. Keď je jeden účet zakázaný, nahradí ho nový. Jedna proxy sieť spravovala viac ako 20 000 podvodných účtov súčasne, pričom miešala destilačnú prevádzku s nesúvisiacimi požiadavkami zákazníkov, aby sťažila detekciu.

To, čo odlišuje destiláciu od bežného používania, je vzor. Jednoduchý prompt sa môže zdať neškodný, ale keď variácie prichádzajú desaťtisíce krát cez stovky koordinovaných účtov, všetky sa zameriavajúce na rovnakú úzku schopnosť, vzor sa stáva jasným.

Dôsledky pre národnú bezpečnosť

Nezákonne destilované modely nemajú bezpečnostné zábrany, ktoré americké spoločnosti zabudovávajú do hraničných systémov. Tieto zábrany bránia použitiu AI na vývoj biologických zbraní, vykonávanie útočných kybernetických operácií alebo umožnenie masového sledovania.

Modely vytvorené prostredníctvom nezákonnej destilácie si pravdepodobne neudržia tieto ochrany. Zahraničné laboratóriá môžu dodávať nechránené schopnosti do vojenských, spravodajských a monitorovacích systémov. Ak sú destilované modely s otvoreným zdrojovým kódom, nebezpečné schopnosti sa voľne šíria mimo kontrolu ktorejkoľvek vlády.

Útoky destilácie tiež podkopávajú americké exportné kontroly. Bez prehľadu o týchto útokoch sa zdanlivo rýchle pokroky týchto laboratórií môžu nesprávne interpretovať ako dôkaz, že exportné kontroly sú neúčinné. V skutočnosti pokroky závisia od schopností extrahovaných z amerických modelov a vykonávanie extrakcie vo veľkom rozsahu si vyžaduje pokročilé čipy, ktoré sú exportné kontroly navrhnuté na obmedzenie.

Protiopatrenia spoločnosti Anthropic

Anthropic nasadzuje viacero obranných opatrení proti útokom destilácie:

Klasifikátory detekcie: Systémy na základe behaviorálneho odtlačku prsta, ktoré identifikujú destilačné vzorce v prevádzke API, vrátane extrakcie „chain-of-thought“ používanej na konštrukciu tréningových dát pre uvažovanie
Zdieľanie spravodajských informácií: Technické indikátory zdieľané s inými AI laboratóriami, poskytovateľmi cloudu a príslušnými orgánmi pre komplexný obraz o stave destilácie
Kontrola prístupu: Posilnené overovanie pre vzdelávacie účty, programy bezpečnostného výskumu a startupové organizácie — cesty najčastejšie zneužívané
Ochranné opatrenia na úrovni modelu: Protiopatrenia na úrovni produktu, API a modelu navrhnuté tak, aby znižovali účinnosť výstupu pre nezákonnú destiláciu bez zhoršenia legitímneho použitia

Anthropic tiež tieto zistenia spojil so svojou skoršou podporou pre Claude Code Security schopnosti pre obráncov, čo je súčasťou širšej stratégie na zabezpečenie ochrany hraničných schopností AI.

Potrebná celoodvetvová reakcia

Anthropic zdôrazňuje, že žiadna jednotlivá spoločnosť nedokáže vyriešiť útoky destilácie sama. Kampane zneužívajú komerčné proxy služby, cloudové platformy tretích strán a medzery v overovaní účtov, ktoré pokrývajú celý AI ekosystém.

Rastúca intenzita a sofistikovanosť týchto kampaní zužuje priestor na konanie. Anthropic pozoroval, že destilátori sa rýchlo prispôsobujú: keď sú vydané nové modely, úsilie o extrakciu sa do niekoľkých hodín preorientuje. Keď sú účty zakázané, proxy siete ich okamžite nahradia prostredníctvom architektúr hydra klastra bez jediného bodu zlyhania.

Riešenie tejto hrozby si vyžaduje koordinované kroky medzi spoločnosťami AI, poskytovateľmi cloudu a tvorcami politík. Anthropic zverejnil svoje zistenia, aby sprístupnil dôkazy všetkým, ktorí majú záujem na ochrane hraničných schopností AI pred neoprávnenou extrakciou. Spoločnosť vyzýva na celoodvetvové štandardy pre overovanie účtov, zdieľané rámce spravodajských informácií o hrozbách a politickú podporu pre presadzovanie proti nezákonnej destilácii vo veľkom rozsahu.