Anthropic odhaľuje destilačné kampane v priemyselnom rozsahu
Anthropic zverejnil dôkazy, že tri AI laboratóriá — DeepSeek, Moonshot AI a MiniMax — viedli koordinované kampane na extrakciu schopností Claude prostredníctvom nezákonnej destilácie. Kampane vygenerovali viac ako 16 miliónov výmen s Claude prostredníctvom približne 24 000 podvodných účtov, čím porušili podmienky služby Anthropic a regionálne obmedzenia prístupu.
Destilácia je legitímna technika, pri ktorej sa menší model trénuje na výstupoch silnejšieho modelu. Hraničné laboratóriá pravidelne destilujú svoje vlastné modely, aby vytvorili lacnejšie verzie. Ak však konkurenti používajú destiláciu bez povolenia, získavajú výkonné schopnosti za zlomok nákladov a času potrebného na nezávislý vývoj.
Útoky sa zamerali na najviac odlišné funkcie Claude: agentické uvažovanie, používanie nástrojov a kódovanie — rovnaké schopnosti, ktoré poháňajú Claude Opus 4.6 a Claude Sonnet 4.6.
Rozsah a ciele jednotlivých kampaní
| Laboratórium | Výmeny | Primárne ciele |
|---|---|---|
| DeepSeek | 150,000+ | Uvažovanie, hodnotenie modelu odmeny, obchádzanie cenzúry |
| Moonshot AI | 3.4 million+ | Agentické uvažovanie, používanie nástrojov, počítačové videnie |
| MiniMax | 13 million+ | Agentické kódovanie, orchestrácia nástrojov |
DeepSeek použil pozoruhodnú techniku: prompty, ktoré žiadali Claude, aby krok za krokom vyjadril svoje vnútorné uvažovanie, čím efektívne generoval tréningové údaje typu „chain-of-thought“ vo veľkom rozsahu. Tiež použili Claude na generovanie alternatív bezpečných pred cenzúrou pre politicky citlivé otázky — pravdepodobne na trénovanie ich vlastných modelov, aby odklonili konverzácie od cenzurovaných tém. Anthropic vystopoval tieto účty k špecifickým výskumníkom v laboratóriu.
Moonshot AI (modely Kimi) zamestnal stovky podvodných účtov naprieč viacerými prístupovými cestami. V neskoršej fáze sa Moonshot preorientoval na cielenejší prístup, pokúšajúc sa extrahovať a rekonštruovať stopy uvažovania Claude.
MiniMax viedol najväčšiu kampaň s viac ako 13 miliónmi výmen. Anthropic túto kampaň detekoval, kým bola stále aktívna — predtým, ako MiniMax vydal model, ktorý trénoval. Keď Anthropic počas aktívnej kampane vydal nový model, MiniMax sa do 24 hodín preorientoval a presmeroval takmer polovicu svojej prevádzky, aby zachytil najnovšie schopnosti.
Ako destilátori obchádzajú obmedzenia prístupu
Anthropic neponúka komerčný prístup k Claude v Číne z dôvodov národnej bezpečnosti. Laboratóriá to obišli pomocou komerčných proxy služieb, ktoré hromadne predávajú prístup k hraničným modelom.
Tieto služby prevádzkujú to, čo Anthropic nazýva architektúrami „hydra klastra“: rozsiahle siete podvodných účtov, ktoré distribuujú prevádzku naprieč API a cloudovými platformami tretích strán. Keď je jeden účet zakázaný, nahradí ho nový. Jedna proxy sieť spravovala viac ako 20 000 podvodných účtov súčasne, pričom miešala destilačnú prevádzku s nesúvisiacimi požiadavkami zákazníkov, aby sťažila detekciu.
To, čo odlišuje destiláciu od bežného používania, je vzor. Jednoduchý prompt sa môže zdať neškodný, ale keď variácie prichádzajú desaťtisíce krát cez stovky koordinovaných účtov, všetky sa zameriavajúce na rovnakú úzku schopnosť, vzor sa stáva jasným.
Dôsledky pre národnú bezpečnosť
Nezákonne destilované modely nemajú bezpečnostné zábrany, ktoré americké spoločnosti zabudovávajú do hraničných systémov. Tieto zábrany bránia použitiu AI na vývoj biologických zbraní, vykonávanie útočných kybernetických operácií alebo umožnenie masového sledovania.
Modely vytvorené prostredníctvom nezákonnej destilácie si pravdepodobne neudržia tieto ochrany. Zahraničné laboratóriá môžu dodávať nechránené schopnosti do vojenských, spravodajských a monitorovacích systémov. Ak sú destilované modely s otvoreným zdrojovým kódom, nebezpečné schopnosti sa voľne šíria mimo kontrolu ktorejkoľvek vlády.
Útoky destilácie tiež podkopávajú americké exportné kontroly. Bez prehľadu o týchto útokoch sa zdanlivo rýchle pokroky týchto laboratórií môžu nesprávne interpretovať ako dôkaz, že exportné kontroly sú neúčinné. V skutočnosti pokroky závisia od schopností extrahovaných z amerických modelov a vykonávanie extrakcie vo veľkom rozsahu si vyžaduje pokročilé čipy, ktoré sú exportné kontroly navrhnuté na obmedzenie.
Protiopatrenia spoločnosti Anthropic
Anthropic nasadzuje viacero obranných opatrení proti útokom destilácie:
- Klasifikátory detekcie: Systémy na základe behaviorálneho odtlačku prsta, ktoré identifikujú destilačné vzorce v prevádzke API, vrátane extrakcie „chain-of-thought“ používanej na konštrukciu tréningových dát pre uvažovanie
- Zdieľanie spravodajských informácií: Technické indikátory zdieľané s inými AI laboratóriami, poskytovateľmi cloudu a príslušnými orgánmi pre komplexný obraz o stave destilácie
- Kontrola prístupu: Posilnené overovanie pre vzdelávacie účty, programy bezpečnostného výskumu a startupové organizácie — cesty najčastejšie zneužívané
- Ochranné opatrenia na úrovni modelu: Protiopatrenia na úrovni produktu, API a modelu navrhnuté tak, aby znižovali účinnosť výstupu pre nezákonnú destiláciu bez zhoršenia legitímneho použitia
Anthropic tiež tieto zistenia spojil so svojou skoršou podporou pre Claude Code Security schopnosti pre obráncov, čo je súčasťou širšej stratégie na zabezpečenie ochrany hraničných schopností AI.
Potrebná celoodvetvová reakcia
Anthropic zdôrazňuje, že žiadna jednotlivá spoločnosť nedokáže vyriešiť útoky destilácie sama. Kampane zneužívajú komerčné proxy služby, cloudové platformy tretích strán a medzery v overovaní účtov, ktoré pokrývajú celý AI ekosystém.
Rastúca intenzita a sofistikovanosť týchto kampaní zužuje priestor na konanie. Anthropic pozoroval, že destilátori sa rýchlo prispôsobujú: keď sú vydané nové modely, úsilie o extrakciu sa do niekoľkých hodín preorientuje. Keď sú účty zakázané, proxy siete ich okamžite nahradia prostredníctvom architektúr hydra klastra bez jediného bodu zlyhania.
Riešenie tejto hrozby si vyžaduje koordinované kroky medzi spoločnosťami AI, poskytovateľmi cloudu a tvorcami politík. Anthropic zverejnil svoje zistenia, aby sprístupnil dôkazy všetkým, ktorí majú záujem na ochrane hraničných schopností AI pred neoprávnenou extrakciou. Spoločnosť vyzýva na celoodvetvové štandardy pre overovanie účtov, zdieľané rámce spravodajských informácií o hrozbách a politickú podporu pre presadzovanie proti nezákonnej destilácii vo veľkom rozsahu.
Často kladené otázky
Čo sú útoky destilácie AI?
Ktoré spoločnosti destilovali schopnosti Claude?
Prečo sú útoky destilácie rizikom pre národnú bezpečnosť?
Ako DeepSeek, Moonshot a MiniMax získali prístup k Claude?
Ako Anthropic reaguje na útoky destilácie?
Čo konkrétne DeepSeek extrahoval z Claude?
Buďte informovaní
Dostávajte najnovšie AI správy do schránky.
