Anthropic Ujawnia Kampanie Destylacji na Skalę Przemysłową
Anthropic opublikował dowody na to, że trzy laboratoria AI – DeepSeek, Moonshot AI i MiniMax – prowadziły skoordynowane kampanie mające na celu ekstrakcję możliwości Claude'a poprzez nielegalną destylację. Kampanie te wygenerowały ponad 16 milionów interakcji z Claude'em za pośrednictwem około 24 000 fałszywych kont, naruszając warunki świadczenia usług Anthropic oraz regionalne ograniczenia dostępu.
Destylacja jest legalną techniką, w której mniejszy model jest trenowany na wynikach silniejszego. Laboratoria graniczne regularnie destylują własne modele, aby tworzyć tańsze wersje. Jednak gdy konkurenci używają destylacji bez autoryzacji, uzyskują potężne możliwości za ułamek kosztów i czasu potrzebnego na niezależny rozwój.
Ataki celowały w najbardziej wyróżniające się cechy Claude'a: rozumowanie agentyczne, wykorzystanie narzędzi i kodowanie – te same możliwości, które napędzają Claude Opus 4.6 i Claude Sonnet 4.6.
Skala i Cele Poszczególnych Kampanii
| Laboratorium | Interakcje | Główne cele |
|---|---|---|
| DeepSeek | Ponad 150 000 | Rozumowanie, ocenianie modelem nagradzającym, obejścia cenzury |
| Moonshot AI | Ponad 3,4 miliona | Rozumowanie agentyczne, wykorzystanie narzędzi, widzenie komputerowe |
| MiniMax | Ponad 13 milionów | Agentyczne kodowanie, orkiestracja narzędzi |
DeepSeek zastosował godną uwagi technikę: zapytania, które prosiły Claude'a o przedstawienie wewnętrznego rozumowania krok po kroku, skutecznie generując na dużą skalę dane treningowe typu „łańcuch myśli”. Wykorzystali również Claude'a do generowania cenzurowanych alternatyw dla wrażliwych politycznie zapytań – prawdopodobnie w celu trenowania własnych modeli, aby kierowały rozmowy z dala od cenzurowanych tematów. Anthropic wyśledził te konta do konkretnych badaczy w laboratorium.
Moonshot AI (modele Kimi) zatrudniało setki fałszywych kont w wielu kanałach dostępu. W późniejszej fazie Moonshot przeszedł na bardziej ukierunkowane podejście, próbując wydobyć i zrekonstruować ślady rozumowania Claude'a.
MiniMax przeprowadził największą kampanię z ponad 13 milionami interakcji. Anthropic wykrył tę kampanię, gdy była jeszcze aktywna – zanim MiniMax wydał model, który trenował. Kiedy Anthropic wydał nowy model podczas aktywnej kampanii, MiniMax zmienił kurs w ciągu 24 godzin, przekierowując prawie połowę swojego ruchu, aby przechwycić najnowsze możliwości.
Jak Destylatory Omijają Ograniczenia Dostępu
Anthropic nie oferuje komercyjnego dostępu do Claude'a w Chinach ze względów bezpieczeństwa narodowego. Laboratoria ominęły to, korzystając z komercyjnych usług proxy, które odsprzedają dostęp do modeli granicznych na dużą skalę.
Usługi te wykorzystują to, co Anthropic nazywa architekturami „klastrowymi typu Hydra”: rozległe sieci fałszywych kont, które rozkładają ruch między API a platformami chmurowymi firm trzecich. Kiedy jedno konto zostaje zablokowane, nowe je zastępuje. Jedna sieć proxy jednocześnie zarządzała ponad 20 000 fałszywych kont, mieszając ruch destylacyjny z niezwiązanymi żądaniami klientów, aby utrudnić wykrycie.
To, co odróżnia destylację od normalnego użytkowania, to wzorzec. Pojedyncze zapytanie może wydawać się nieszkodliwe, ale gdy jego wariacje pojawiają się dziesiątki tysięcy razy na setkach skoordynowanych kont, wszystkie celujące w tę samą wąską możliwość, wzorzec staje się jasny.
Implikacje dla Bezpieczeństwa Narodowego
Nielegalnie destylowane modele nie posiadają zabezpieczeń, które amerykańskie firmy wbudowują w systemy graniczne. Zabezpieczenia te zapobiegają wykorzystywaniu AI do rozwoju broni biologicznej, prowadzenia ofensywnych operacji cybernetycznych lub umożliwiania masowej inwigilacji.
Modele zbudowane poprzez nielegalną destylację prawdopodobnie nie zachowają tych zabezpieczeń. Zagraniczne laboratoria mogą wprowadzać niechronione możliwości do systemów wojskowych, wywiadowczych i nadzoru. Jeśli destylowane modele zostaną udostępnione publicznie, niebezpieczne możliwości rozprzestrzenią się swobodnie poza kontrolę jakiegokolwiek rządu.
Ataki destylacji podważają również amerykańską kontrolę eksportu. Bez wglądu w te ataki, pozornie szybki postęp tych laboratoriów może być błędnie interpretowany jako dowód nieskuteczności kontroli eksportu. W rzeczywistości postępy te zależą od możliwości wyekstrahowanych z amerykańskich modeli, a przeprowadzanie ekstrakcji na dużą skalę wymaga zaawansowanych chipów, które kontrola eksportu ma na celu ograniczać.
Środki Zaradcze Anthropic
Anthropic wdraża wiele środków obronnych przeciwko atakom destylacji:
- Klasyfikatory wykrywania: Systemy odcisków palców behawioralnych, które identyfikują wzorce destylacji w ruchu API, w tym elicitację „łańcucha myśli” używaną do konstruowania danych treningowych rozumowania.
- Wymiana informacji wywiadowczych: Wskaźniki techniczne udostępniane innym laboratoriom AI, dostawcom usług chmurowych i odpowiednim władzom w celu uzyskania całościowego obrazu sytuacji destylacji.
- Kontrola dostępu: Wzmocniona weryfikacja dla kont edukacyjnych, programów badań bezpieczeństwa i organizacji startupowych – najczęściej wykorzystywanych ścieżek.
- Zabezpieczenia na poziomie modelu: Środki zaradcze na poziomie produktu, API i modelu, zaprojektowane w celu zmniejszenia skuteczności wyjściowej dla nielegalnej destylacji bez pogarszania usług dla legalnego użytkowania.
Anthropic powiązał również te odkrycia ze swoim wcześniejszym wsparciem dla możliwości Claude Code Security dla obrońców, co jest częścią szerszej strategii mającej na celu zapewnienie ochrony granicznych możliwości AI.
Potrzebna Reakcja Branży na Całym Świecie
Anthropic podkreśla, że żadna pojedyncza firma nie jest w stanie samodzielnie rozwiązać problemu ataków destylacji. Kampanie te wykorzystują komercyjne usługi proxy, platformy chmurowe firm trzecich i luki w weryfikacji kont, które obejmują cały ekosystem AI.
Rosnąca intensywność i wyrafinowanie tych kampanii zawęża okno na działanie. Anthropic zaobserwował, że destylatorzy szybko się adaptują: po wydaniu nowych modeli, wysiłki ekstrakcyjne zmieniają się w ciągu kilku godzin. Kiedy konta są blokowane, sieci proxy natychmiast je zastępują za pośrednictwem architektur klastrowych typu Hydra, bez pojedynczego punktu awarii.
Rozwiązanie zagrożenia wymaga skoordynowanych działań między firmami AI, dostawcami usług chmurowych i decydentami politycznymi. Anthropic opublikował swoje odkrycia, aby udostępnić dowody wszystkim zainteresowanym ochroną granicznych możliwości AI przed nieautoryzowaną ekstrakcją. Firma wzywa do ustanowienia ogólnobranżowych standardów weryfikacji kont, wspólnych ram wymiany informacji o zagrożeniach oraz wsparcia politycznego dla egzekwowania przepisów przeciwko nielegalnej destylacji na dużą skalę.
Często zadawane pytania
Czym są ataki destylacji AI?
Które firmy destylowały możliwości Claude'a?
Dlaczego ataki destylacji stanowią zagrożenie dla bezpieczeństwa narodowego?
Jak DeepSeek, Moonshot i MiniMax uzyskały dostęp do Claude'a?
Jak Anthropic reaguje na ataki destylacji?
Co DeepSeek konkretnie wyekstrahował z Claude'a?
Bądź na bieżąco
Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.
