Vad är AI-destillationsattacker?

AI-destillationsattacker innebär att man tränar en mindre kapabel modell på utdata från en starkare modell utan tillstånd. Konkurrenter genererar stora mängder noggrant utformade prompter för att extrahera specifika förmågor från en gränsmodell, och använder sedan svaren för att träna sina egna system. Anthropic identifierade över 16 miljoner otillåtna utbyten via cirka 24 000 bedrägliga konton som användes av DeepSeek, Moonshot och MiniMax för att extrahera Claudes förmågor.

Vilka företag destillerade Claudes förmågor?

Anthropic identifierade tre kinesiska AI-laboratorier som genomförde storskaliga destillationskampanjer: DeepSeek (över 150 000 utbyten som riktade in sig på resonemang och kringgående av censur), Moonshot AI (över 3,4 miljoner utbyten som riktade in sig på agentiska resonemang och verktygsanvändning) och MiniMax (över 13 miljoner utbyten som riktade in sig på agentisk kodning och verktygskoordinering).

Varför är destillationsattacker en nationell säkerhetsrisk?

Olagligt destillerade modeller saknar de säkerhetsspärrar som amerikanska företag som Anthropic bygger in i sina system. Dessa oskyddade modeller kan användas för offensiva cyberoperationer, desinformationskampanjer, massövervakning och till och med stöd för utveckling av biologiska vapen. Om destillerade modeller blir öppen källkod sprids farliga förmågor bortom någon enskild regerings kontroll, vilket underminerar exportkontroller som är utformade för att upprätthålla USA:s AI-fördel.

Hur fick DeepSeek, Moonshot och MiniMax tillgång till Claude?

Laboratorierna kringgick Anthropics regionala åtkomstbegränsningar med hjälp av kommersiella proxytjänster som återförsäljer Claude API-åtkomst i stor skala. Dessa tjänster kör hydraklusterarkitekturer med spridda nätverk av bedrägliga konton fördelade över Anthropics API och tredjeparts molnplattformar. Ett proxynätverk hanterade mer än 20 000 bedrägliga konton samtidigt, blandade destillationstrafik med legitima förfrågningar för att undvika upptäckt.

Hur reagerar Anthropic på destillationsattacker?

Anthropic implementerar flera motåtgärder: klassificerare för beteendeanalys för att upptäcka destillationsmönster i API-trafik, underrättelsedelning med andra AI-laboratorier och molnleverantörer, förstärkt kontoverifiering, och skydd på modellnivå som minskar utdataeffektiviteten för olaglig destillation utan att försämra tjänsten för legitima användare. Anthropic efterlyser också samordnade industri- och policyåtgärder.

Vad extraherade DeepSeek specifikt från Claude?

DeepSeek riktade in sig på Claudes resonemangsförmåga, rubric-baserade bedömningsuppgifter (vilket fick Claude att fungera som en belöningsmodell för förstärkningsinlärning), och censursäkra alternativ till politiskt känsliga frågor. De använde tekniker som bad Claude att artikulera sitt interna resonemang steg för steg, vilket genererade träningsdata för tankekedjor i stor skala. Anthropic spårade dessa konton till specifika forskare på DeepSeek.

Anthropic avslöjar destillationsattacker av DeepSeek och MiniMax

Anthropic avslöjar storskaliga destillationskampanjer

Anthropic har publicerat bevis för att tre AI-laboratorier – DeepSeek, Moonshot AI och MiniMax – genomförde samordnade kampanjer för att extrahera Claudes förmågor genom otillåten destillation. Kampanjerna genererade över 16 miljoner utbyten med Claude via cirka 24 000 bedrägliga konton, vilket stred mot Anthropics användarvillkor och regionala åtkomstbegränsningar.

Destillation är en legitim teknik där en mindre modell tränas på utdata från en starkare modell. Gränslaboratorier destillerar regelbundet sina egna modeller för att skapa billigare versioner. Men när konkurrenter använder destillation utan tillstånd, förvärvar de kraftfulla förmågor till en bråkdel av kostnaden och tiden som behövs för oberoende utveckling.

Attackerna riktade in sig på Claudes mest differentierade funktioner: agentiska resonemang, verktygsanvändning och kodning – samma förmågor som driver Claude Opus 4.6 och Claude Sonnet 4.6.

Kampanjernas omfattning och mål

Laboratorium	Utbyten	Primära Mål
DeepSeek	150 000+	Resonemang, belöningsmodellgradering, kringgående av censur
Moonshot AI	3,4 miljoner+	Agentiska resonemang, verktygsanvändning, datorseende
MiniMax	13 miljoner+	Agentisk kodning, verktygskoordinering

DeepSeek använde en anmärkningsvärd teknik: prompter som bad Claude att artikulera sitt interna resonemang steg för steg, vilket effektivt genererade träningsdata för tankekedjor i stor skala. De använde också Claude för att generera censursäkra alternativ till politiskt känsliga frågor – troligen för att träna sina egna modeller att styra samtal bort från censurerade ämnen. Anthropic spårade dessa konton till specifika forskare vid laboratoriet.

Moonshot AI (Kimi-modeller) använde hundratals bedrägliga konton via flera åtkomstvägar. I en senare fas övergick Moonshot till en mer målinriktad strategi, där de försökte extrahera och rekonstruera Claudes resonemangsspår.

MiniMax drev den största kampanjen med över 13 miljoner utbyten. Anthropic upptäckte denna kampanj medan den fortfarande var aktiv – innan MiniMax släppte modellen de tränade. När Anthropic släppte en ny modell under den aktiva kampanjen, ändrade MiniMax sin strategi inom 24 timmar och omdirigerade nästan hälften av sin trafik för att fånga de senaste förmågorna.

Hur destillerare kringgår åtkomstbegränsningar

Anthropic erbjuder inte kommersiell Claude-åtkomst i Kina av nationella säkerhetsskäl. Laboratorierna kringgick detta genom kommersiella proxytjänster som återförsäljer åtkomst till gränsmodeller i stor skala.

Dessa tjänster kör vad Anthropic kallar "hydrakluster"-arkitekturer: vidsträckta nätverk av bedrägliga konton som distribuerar trafik över API:et och tredjeparts molnplattformar. När ett konto blir bannlyst ersätter ett nytt det. Ett proxynätverk hanterade mer än 20 000 bedrägliga konton samtidigt, blandade destillationstrafik med orelaterade kundförfrågningar för att göra upptäckt svårare.

Det som skiljer destillation från normal användning är mönstret. En enskild prompt kan verka harmlös, men när variationer kommer tiotusentals gånger över hundratals koordinerade konton, alla riktade mot samma snäva förmåga, blir mönstret tydligt.

Nationella säkerhetsimplikationer

Olagligt destillerade modeller saknar de säkerhetsspärrar som amerikanska företag bygger in i gränssystem. Dessa spärrar förhindrar att AI används för att utveckla biologiska vapen, utföra offensiva cyberoperationer eller möjliggöra massövervakning.

Modeller byggda genom olaglig destillation är osannolikt att behålla dessa skydd. Utländska laboratorier kan mata in oskyddade förmågor i militära, underrättelse- och övervakningssystem. Om destillerade modeller blir öppen källkod sprids farliga förmågor fritt bortom någon regerings kontroll.

Destillationsattacker undergräver också USA:s exportkontroller. Utan insyn i dessa attacker kan de uppenbart snabba framstegen från dessa laboratorier felaktigt tolkas som bevis på att exportkontroller är ineffektiva. I själva verket beror framstegen på förmågor extraherade från amerikanska modeller, och att utföra extraktion i stor skala kräver de avancerade chip som exportkontrollerna är utformade för att begränsa.

Anthropics motåtgärder

Anthropic implementerar flera försvar mot destillationsattacker:

Detektionsklassificerare: System för beteendeanalys som identifierar destillationsmönster i API-trafik, inklusive elicitering av tankekedjor som används för att konstruera träningsdata för resonemang.
Underrättelsedelning: Tekniska indikatorer delas med andra AI-laboratorier, molnleverantörer och relevanta myndigheter för en helhetsbild av destillationslandskapet.
Åtkomstkontroller: Förstärkt verifiering för utbildningskonton, säkerhetsforskningsprogram och startup-organisationer – de vägar som oftast utnyttjas.
Skydd på modellnivå: Motåtgärder på produkt-, API- och modellnivå utformade för att minska utdataeffektiviteten för olaglig destillation utan att försämra legitim användning.

Anthropic har också kopplat dessa fynd till sitt tidigare stöd för Claude Code Security-funktioner för försvarare, som en del av en bredare strategi för att säkerställa att gräns-AI-förmågor förblir skyddade.

Branschövergripande svar behövs

Anthropic betonar att inget enskilt företag kan lösa destillationsattacker ensamt. Kampanjerna utnyttjar kommersiella proxytjänster, tredjeparts molnplattformar och luckor i kontoverifiering som spänner över hela AI-ekosystemet.

Den växande intensiteten och sofistikeringen av dessa kampanjer minskar handlingsutrymmet. Anthropic har observerat att destillerare anpassar sig snabbt: när nya modeller släpps, ändras extraktionsinsatserna inom några timmar. När konton bannlyses, ersätter proxynätverken dem omedelbart genom hydraklusterarkitekturer utan en enda felpunkt.

Att hantera hotet kräver samordnade åtgärder bland AI-företag, molnleverantörer och beslutsfattare. Anthropic publicerade sina fynd för att göra bevisen tillgängliga för alla som har ett intresse av att skydda gräns-AI-förmågor från obehörig extraktion. Företaget efterlyser branschövergripande standarder för kontoverifiering, ramverk för delad hotinformation och politiskt stöd för att upprätthålla åtgärder mot olaglig destillation i stor skala.