Anthropic avslöjar storskaliga destillationskampanjer
Anthropic har publicerat bevis för att tre AI-laboratorier – DeepSeek, Moonshot AI och MiniMax – genomförde samordnade kampanjer för att extrahera Claudes förmågor genom otillåten destillation. Kampanjerna genererade över 16 miljoner utbyten med Claude via cirka 24 000 bedrägliga konton, vilket stred mot Anthropics användarvillkor och regionala åtkomstbegränsningar.
Destillation är en legitim teknik där en mindre modell tränas på utdata från en starkare modell. Gränslaboratorier destillerar regelbundet sina egna modeller för att skapa billigare versioner. Men när konkurrenter använder destillation utan tillstånd, förvärvar de kraftfulla förmågor till en bråkdel av kostnaden och tiden som behövs för oberoende utveckling.
Attackerna riktade in sig på Claudes mest differentierade funktioner: agentiska resonemang, verktygsanvändning och kodning – samma förmågor som driver Claude Opus 4.6 och Claude Sonnet 4.6.
Kampanjernas omfattning och mål
| Laboratorium | Utbyten | Primära Mål |
|---|---|---|
| DeepSeek | 150 000+ | Resonemang, belöningsmodellgradering, kringgående av censur |
| Moonshot AI | 3,4 miljoner+ | Agentiska resonemang, verktygsanvändning, datorseende |
| MiniMax | 13 miljoner+ | Agentisk kodning, verktygskoordinering |
DeepSeek använde en anmärkningsvärd teknik: prompter som bad Claude att artikulera sitt interna resonemang steg för steg, vilket effektivt genererade träningsdata för tankekedjor i stor skala. De använde också Claude för att generera censursäkra alternativ till politiskt känsliga frågor – troligen för att träna sina egna modeller att styra samtal bort från censurerade ämnen. Anthropic spårade dessa konton till specifika forskare vid laboratoriet.
Moonshot AI (Kimi-modeller) använde hundratals bedrägliga konton via flera åtkomstvägar. I en senare fas övergick Moonshot till en mer målinriktad strategi, där de försökte extrahera och rekonstruera Claudes resonemangsspår.
MiniMax drev den största kampanjen med över 13 miljoner utbyten. Anthropic upptäckte denna kampanj medan den fortfarande var aktiv – innan MiniMax släppte modellen de tränade. När Anthropic släppte en ny modell under den aktiva kampanjen, ändrade MiniMax sin strategi inom 24 timmar och omdirigerade nästan hälften av sin trafik för att fånga de senaste förmågorna.
Hur destillerare kringgår åtkomstbegränsningar
Anthropic erbjuder inte kommersiell Claude-åtkomst i Kina av nationella säkerhetsskäl. Laboratorierna kringgick detta genom kommersiella proxytjänster som återförsäljer åtkomst till gränsmodeller i stor skala.
Dessa tjänster kör vad Anthropic kallar "hydrakluster"-arkitekturer: vidsträckta nätverk av bedrägliga konton som distribuerar trafik över API:et och tredjeparts molnplattformar. När ett konto blir bannlyst ersätter ett nytt det. Ett proxynätverk hanterade mer än 20 000 bedrägliga konton samtidigt, blandade destillationstrafik med orelaterade kundförfrågningar för att göra upptäckt svårare.
Det som skiljer destillation från normal användning är mönstret. En enskild prompt kan verka harmlös, men när variationer kommer tiotusentals gånger över hundratals koordinerade konton, alla riktade mot samma snäva förmåga, blir mönstret tydligt.
Nationella säkerhetsimplikationer
Olagligt destillerade modeller saknar de säkerhetsspärrar som amerikanska företag bygger in i gränssystem. Dessa spärrar förhindrar att AI används för att utveckla biologiska vapen, utföra offensiva cyberoperationer eller möjliggöra massövervakning.
Modeller byggda genom olaglig destillation är osannolikt att behålla dessa skydd. Utländska laboratorier kan mata in oskyddade förmågor i militära, underrättelse- och övervakningssystem. Om destillerade modeller blir öppen källkod sprids farliga förmågor fritt bortom någon regerings kontroll.
Destillationsattacker undergräver också USA:s exportkontroller. Utan insyn i dessa attacker kan de uppenbart snabba framstegen från dessa laboratorier felaktigt tolkas som bevis på att exportkontroller är ineffektiva. I själva verket beror framstegen på förmågor extraherade från amerikanska modeller, och att utföra extraktion i stor skala kräver de avancerade chip som exportkontrollerna är utformade för att begränsa.
Anthropics motåtgärder
Anthropic implementerar flera försvar mot destillationsattacker:
- Detektionsklassificerare: System för beteendeanalys som identifierar destillationsmönster i API-trafik, inklusive elicitering av tankekedjor som används för att konstruera träningsdata för resonemang.
- Underrättelsedelning: Tekniska indikatorer delas med andra AI-laboratorier, molnleverantörer och relevanta myndigheter för en helhetsbild av destillationslandskapet.
- Åtkomstkontroller: Förstärkt verifiering för utbildningskonton, säkerhetsforskningsprogram och startup-organisationer – de vägar som oftast utnyttjas.
- Skydd på modellnivå: Motåtgärder på produkt-, API- och modellnivå utformade för att minska utdataeffektiviteten för olaglig destillation utan att försämra legitim användning.
Anthropic har också kopplat dessa fynd till sitt tidigare stöd för Claude Code Security-funktioner för försvarare, som en del av en bredare strategi för att säkerställa att gräns-AI-förmågor förblir skyddade.
Branschövergripande svar behövs
Anthropic betonar att inget enskilt företag kan lösa destillationsattacker ensamt. Kampanjerna utnyttjar kommersiella proxytjänster, tredjeparts molnplattformar och luckor i kontoverifiering som spänner över hela AI-ekosystemet.
Den växande intensiteten och sofistikeringen av dessa kampanjer minskar handlingsutrymmet. Anthropic har observerat att destillerare anpassar sig snabbt: när nya modeller släpps, ändras extraktionsinsatserna inom några timmar. När konton bannlyses, ersätter proxynätverken dem omedelbart genom hydraklusterarkitekturer utan en enda felpunkt.
Att hantera hotet kräver samordnade åtgärder bland AI-företag, molnleverantörer och beslutsfattare. Anthropic publicerade sina fynd för att göra bevisen tillgängliga för alla som har ett intresse av att skydda gräns-AI-förmågor från obehörig extraktion. Företaget efterlyser branschövergripande standarder för kontoverifiering, ramverk för delad hotinformation och politiskt stöd för att upprätthålla åtgärder mot olaglig destillation i stor skala.
Vanliga frågor
Vad är AI-destillationsattacker?
Vilka företag destillerade Claudes förmågor?
Varför är destillationsattacker en nationell säkerhetsrisk?
Hur fick DeepSeek, Moonshot och MiniMax tillgång till Claude?
Hur reagerar Anthropic på destillationsattacker?
Vad extraherade DeepSeek specifikt från Claude?
Håll dig uppdaterad
Få de senaste AI-nyheterna i din inkorg.
