Czym są ataki destylacji AI?

Ataki destylacji AI polegają na nieautoryzowanym trenowaniu mniej zdolnego modelu na wynikach silniejszego. Konkurenci generują ogromne ilości starannie przygotowanych zapytań, aby wydobyć konkretne możliwości z modelu granicznego, a następnie wykorzystują odpowiedzi do trenowania własnych systemów. Anthropic zidentyfikował ponad 16 milionów nielegalnych interakcji za pośrednictwem około 24 000 fałszywych kont używanych przez DeepSeek, Moonshot i MiniMax do ekstrakcji możliwości Claude'a.

Które firmy destylowały możliwości Claude'a?

Anthropic zidentyfikował trzy chińskie laboratoria AI, które prowadziły kampanie destylacji na skalę przemysłową: DeepSeek (ponad 150 000 interakcji ukierunkowanych na rozumowanie i obejścia cenzury), Moonshot AI (ponad 3,4 miliona interakcji ukierunkowanych na rozumowanie agentyczne i wykorzystanie narzędzi) oraz MiniMax (ponad 13 milionów interakcji ukierunkowanych na agentyczne kodowanie i orkiestrację narzędzi).

Dlaczego ataki destylacji stanowią zagrożenie dla bezpieczeństwa narodowego?

Nielegalnie destylowane modele nie posiadają zabezpieczeń, które amerykańskie firmy, takie jak Anthropic, wbudowują w swoje systemy. Te niechronione modele mogą być wykorzystywane do ofensywnych operacji cybernetycznych, kampanii dezinformacyjnych, masowej inwigilacji, a nawet wspierania rozwoju broni biologicznej. Jeśli destylowane modele zostaną udostępnione publicznie (open-source), niebezpieczne możliwości rozprzestrzenią się poza kontrolę jakiegokolwiek rządu, podważając kontrolę eksportu mającą na celu utrzymanie przewagi Ameryki w dziedzinie AI.

Jak DeepSeek, Moonshot i MiniMax uzyskały dostęp do Claude'a?

Laboratoria ominęły regionalne ograniczenia dostępu Anthropic, korzystając z komercyjnych usług proxy, które odsprzedają dostęp do API Claude na dużą skalę. Usługi te wykorzystują architektury klastrowe typu Hydra z rozległymi sieciami fałszywych kont rozproszonych w API Anthropic i na platformach chmurowych firm trzecich. Jedna sieć proxy jednocześnie zarządzała ponad 20 000 fałszywych kont, mieszając ruch destylacyjny z uzasadnionymi żądaniami, aby uniknąć wykrycia.

Jak Anthropic reaguje na ataki destylacji?

Anthropic wdraża wiele środków zaradczych: klasyfikatory odcisków palców behawioralnych do wykrywania wzorców destylacji w ruchu API, wymianę informacji wywiadowczych z innymi laboratoriami AI i dostawcami usług chmurowych, wzmocnioną weryfikację kont oraz zabezpieczenia na poziomie modelu, które zmniejszają skuteczność wyjściową dla nielegalnej destylacji bez obniżania jakości usług dla legalnych użytkowników. Anthropic wzywa również do skoordynowanych działań branżowych i politycznych.

Co DeepSeek konkretnie wyekstrahował z Claude'a?

DeepSeek celował w możliwości rozumowania Claude'a, zadania oceniania oparte na rubrykach (sprawiając, że Claude działał jako model nagradzający dla uczenia ze wzmocnieniem) oraz cenzurowane alternatywy dla wrażliwych politycznie zapytań. Stosowali techniki, które prosiły Claude'a o przedstawienie jego wewnętrznego rozumowania krok po kroku, generując na dużą skalę dane treningowe typu 'łańcuch myśli'. Anthropic wyśledził te konta do konkretnych badaczy w DeepSeek.

Anthropic Ujawnia Ataki Destylacji Przeprowadzone przez DeepSeek i MiniMax

Anthropic Ujawnia Kampanie Destylacji na Skalę Przemysłową

Anthropic opublikował dowody na to, że trzy laboratoria AI – DeepSeek, Moonshot AI i MiniMax – prowadziły skoordynowane kampanie mające na celu ekstrakcję możliwości Claude'a poprzez nielegalną destylację. Kampanie te wygenerowały ponad 16 milionów interakcji z Claude'em za pośrednictwem około 24 000 fałszywych kont, naruszając warunki świadczenia usług Anthropic oraz regionalne ograniczenia dostępu.

Destylacja jest legalną techniką, w której mniejszy model jest trenowany na wynikach silniejszego. Laboratoria graniczne regularnie destylują własne modele, aby tworzyć tańsze wersje. Jednak gdy konkurenci używają destylacji bez autoryzacji, uzyskują potężne możliwości za ułamek kosztów i czasu potrzebnego na niezależny rozwój.

Ataki celowały w najbardziej wyróżniające się cechy Claude'a: rozumowanie agentyczne, wykorzystanie narzędzi i kodowanie – te same możliwości, które napędzają Claude Opus 4.6 i Claude Sonnet 4.6.

Skala i Cele Poszczególnych Kampanii

Laboratorium	Interakcje	Główne cele
DeepSeek	Ponad 150 000	Rozumowanie, ocenianie modelem nagradzającym, obejścia cenzury
Moonshot AI	Ponad 3,4 miliona	Rozumowanie agentyczne, wykorzystanie narzędzi, widzenie komputerowe
MiniMax	Ponad 13 milionów	Agentyczne kodowanie, orkiestracja narzędzi

DeepSeek zastosował godną uwagi technikę: zapytania, które prosiły Claude'a o przedstawienie wewnętrznego rozumowania krok po kroku, skutecznie generując na dużą skalę dane treningowe typu „łańcuch myśli”. Wykorzystali również Claude'a do generowania cenzurowanych alternatyw dla wrażliwych politycznie zapytań – prawdopodobnie w celu trenowania własnych modeli, aby kierowały rozmowy z dala od cenzurowanych tematów. Anthropic wyśledził te konta do konkretnych badaczy w laboratorium.

Moonshot AI (modele Kimi) zatrudniało setki fałszywych kont w wielu kanałach dostępu. W późniejszej fazie Moonshot przeszedł na bardziej ukierunkowane podejście, próbując wydobyć i zrekonstruować ślady rozumowania Claude'a.

MiniMax przeprowadził największą kampanię z ponad 13 milionami interakcji. Anthropic wykrył tę kampanię, gdy była jeszcze aktywna – zanim MiniMax wydał model, który trenował. Kiedy Anthropic wydał nowy model podczas aktywnej kampanii, MiniMax zmienił kurs w ciągu 24 godzin, przekierowując prawie połowę swojego ruchu, aby przechwycić najnowsze możliwości.

Jak Destylatory Omijają Ograniczenia Dostępu

Anthropic nie oferuje komercyjnego dostępu do Claude'a w Chinach ze względów bezpieczeństwa narodowego. Laboratoria ominęły to, korzystając z komercyjnych usług proxy, które odsprzedają dostęp do modeli granicznych na dużą skalę.

Usługi te wykorzystują to, co Anthropic nazywa architekturami „klastrowymi typu Hydra”: rozległe sieci fałszywych kont, które rozkładają ruch między API a platformami chmurowymi firm trzecich. Kiedy jedno konto zostaje zablokowane, nowe je zastępuje. Jedna sieć proxy jednocześnie zarządzała ponad 20 000 fałszywych kont, mieszając ruch destylacyjny z niezwiązanymi żądaniami klientów, aby utrudnić wykrycie.

To, co odróżnia destylację od normalnego użytkowania, to wzorzec. Pojedyncze zapytanie może wydawać się nieszkodliwe, ale gdy jego wariacje pojawiają się dziesiątki tysięcy razy na setkach skoordynowanych kont, wszystkie celujące w tę samą wąską możliwość, wzorzec staje się jasny.

Implikacje dla Bezpieczeństwa Narodowego

Nielegalnie destylowane modele nie posiadają zabezpieczeń, które amerykańskie firmy wbudowują w systemy graniczne. Zabezpieczenia te zapobiegają wykorzystywaniu AI do rozwoju broni biologicznej, prowadzenia ofensywnych operacji cybernetycznych lub umożliwiania masowej inwigilacji.

Modele zbudowane poprzez nielegalną destylację prawdopodobnie nie zachowają tych zabezpieczeń. Zagraniczne laboratoria mogą wprowadzać niechronione możliwości do systemów wojskowych, wywiadowczych i nadzoru. Jeśli destylowane modele zostaną udostępnione publicznie, niebezpieczne możliwości rozprzestrzenią się swobodnie poza kontrolę jakiegokolwiek rządu.

Ataki destylacji podważają również amerykańską kontrolę eksportu. Bez wglądu w te ataki, pozornie szybki postęp tych laboratoriów może być błędnie interpretowany jako dowód nieskuteczności kontroli eksportu. W rzeczywistości postępy te zależą od możliwości wyekstrahowanych z amerykańskich modeli, a przeprowadzanie ekstrakcji na dużą skalę wymaga zaawansowanych chipów, które kontrola eksportu ma na celu ograniczać.

Środki Zaradcze Anthropic

Anthropic wdraża wiele środków obronnych przeciwko atakom destylacji:

Klasyfikatory wykrywania: Systemy odcisków palców behawioralnych, które identyfikują wzorce destylacji w ruchu API, w tym elicitację „łańcucha myśli” używaną do konstruowania danych treningowych rozumowania.
Wymiana informacji wywiadowczych: Wskaźniki techniczne udostępniane innym laboratoriom AI, dostawcom usług chmurowych i odpowiednim władzom w celu uzyskania całościowego obrazu sytuacji destylacji.
Kontrola dostępu: Wzmocniona weryfikacja dla kont edukacyjnych, programów badań bezpieczeństwa i organizacji startupowych – najczęściej wykorzystywanych ścieżek.
Zabezpieczenia na poziomie modelu: Środki zaradcze na poziomie produktu, API i modelu, zaprojektowane w celu zmniejszenia skuteczności wyjściowej dla nielegalnej destylacji bez pogarszania usług dla legalnego użytkowania.

Anthropic powiązał również te odkrycia ze swoim wcześniejszym wsparciem dla możliwości Claude Code Security dla obrońców, co jest częścią szerszej strategii mającej na celu zapewnienie ochrony granicznych możliwości AI.

Potrzebna Reakcja Branży na Całym Świecie

Anthropic podkreśla, że żadna pojedyncza firma nie jest w stanie samodzielnie rozwiązać problemu ataków destylacji. Kampanie te wykorzystują komercyjne usługi proxy, platformy chmurowe firm trzecich i luki w weryfikacji kont, które obejmują cały ekosystem AI.

Rosnąca intensywność i wyrafinowanie tych kampanii zawęża okno na działanie. Anthropic zaobserwował, że destylatorzy szybko się adaptują: po wydaniu nowych modeli, wysiłki ekstrakcyjne zmieniają się w ciągu kilku godzin. Kiedy konta są blokowane, sieci proxy natychmiast je zastępują za pośrednictwem architektur klastrowych typu Hydra, bez pojedynczego punktu awarii.

Rozwiązanie zagrożenia wymaga skoordynowanych działań między firmami AI, dostawcami usług chmurowych i decydentami politycznymi. Anthropic opublikował swoje odkrycia, aby udostępnić dowody wszystkim zainteresowanym ochroną granicznych możliwości AI przed nieautoryzowaną ekstrakcją. Firma wzywa do ustanowienia ogólnobranżowych standardów weryfikacji kont, wspólnych ram wymiany informacji o zagrożeniach oraz wsparcia politycznego dla egzekwowania przepisów przeciwko nielegalnej destylacji na dużą skalę.