Hva er AI-destillasjonsangrep?

AI-destillasjonsangrep innebærer å trene en mindre kapabel modell på utdata fra en sterkere modell uten autorisasjon. Konkurrenter genererer massive mengder nøye utformede spørsmål (prompter) for å utvinne spesifikke kapasiteter fra en grensemodell, og bruker deretter svarene til å trene sine egne systemer. Anthropic identifiserte over 16 millioner ulovlige utvekslinger fordelt på rundt 24 000 svindelkonti brukt av DeepSeek, Moonshot og MiniMax for å utvinne Claudes kapasiteter.

Hvilke selskaper destillerte Claudes kapasiteter?

Anthropic identifiserte tre kinesiske AI-laboratorier som utførte destillasjonskampanjer i industriell skala: DeepSeek (over 150 000 utvekslinger rettet mot resonnement og omgåelse av sensur), Moonshot AI (over 3,4 millioner utvekslinger rettet mot agentbasert resonnement og verktøybruk), og MiniMax (over 13 millioner utvekslinger rettet mot agentbasert koding og verktøyorkestrering).

Hvorfor er destillasjonsangrep en nasjonal sikkerhetsrisiko?

Ulovlig destillerte modeller mangler sikkerhetsbarrierene som amerikanske selskaper som Anthropic bygger inn i systemene sine. Disse ubeskyttede modellene kan distribueres for offensive cyberoperasjoner, desinformasjonskampanjer, masseovervåking og til og med støtte til utvikling av biovåpen. Hvis destillerte modeller blir åpen kildekode, sprer farlige kapasiteter seg utenfor enhver enkelt regjerings kontroll, noe som undergraver eksportkontroller designet for å opprettholde USAs AI-fordel.

Hvordan fikk DeepSeek, Moonshot og MiniMax tilgang til Claude?

Laboratoriene omgåttes Anthropics regionale tilgangsbegrensninger ved å bruke kommersielle proxy-tjenester som videreselger Claude API-tilgang i stor skala. Disse tjenestene driver hydra-klyngearkitekturer med voksende nettverk av svindelkonti fordelt over Anthropics API og tredjeparts skyplattformer. Ett proxy-nettverk håndterte mer enn 20 000 svindelkonti samtidig, og blandet destillasjonstrafikk med legitime forespørsler for å unngå oppdagelse.

Hvordan svarer Anthropic på destillasjonsangrep?

Anthropic implementerer flere mottiltak: atferdsmessige fingeravtrykksklassifikatorer for å oppdage destillasjonsmønstre i API-trafikk, etterretningsdeling med andre AI-laboratorier og skyttleverandører, styrket kontoverifisering, og modellnivå-sikkerhetstiltak som reduserer utdatadydeligheten for ulovlig destillasjon uten å forringe tjenesten for legitime brukere. Anthropic oppfordrer også til koordinerte bransje- og politiske svar.

Hva utvant DeepSeek spesifikt fra Claude?

DeepSeek rettet seg mot Claudes resonneringsevner, rubrikkbaserte vurderingsoppgaver (som gjorde at Claude fungerte som en belønningsmodell for forsterkningslæring), og sensursikre alternativer til politisk sensitive spørsmål. De brukte teknikker som ba Claude om å artikulere sin interne resonnering trinn for trinn, og genererte tankekjede-treningsdata i stor skala. Anthropic sporet disse kontoene til spesifikke forskere hos DeepSeek.

Anthropic avslører destillasjonsangrep fra DeepSeek og MiniMax

Anthropic avdekker destillasjonskampanjer i industriell skala

Anthropic har publisert bevis for at tre AI-laboratorier – DeepSeek, Moonshot AI og MiniMax – utførte koordinerte kampanjer for å utvinne Claudes kapasiteter gjennom ulovlig destillasjon. Kampanjene genererte over 16 millioner utvekslinger med Claude via rundt 24 000 svindelkonti, noe som brøt Anthropics tjenestevilkår og regionale tilgangsbegrensninger.

Destillasjon er en legitim teknikk der en mindre modell trenes på utdata fra en sterkere. Frontlinjelaboratorier destillerer jevnlig sine egne modeller for å skape billigere versjoner. Men når konkurrenter bruker destillasjon uten autorisasjon, tilegner de seg kraftige kapasiteter til en brøkdel av kostnadene og tiden som kreves for uavhengig utvikling.

Angrepene rettet seg mot Claudes mest differensierte funksjoner: agentbasert resonnement, verktøybruk og koding – de samme kapasitetene som driver Claude Opus 4.6 og Claude Sonnet 4.6.

Omfang og mål for hver kampanje

Laboratorium	Utvekslinger	Primære mål
DeepSeek	150 000+	Resonnement, belønningsmodell-gradering, omgåelse av sensur
Moonshot AI	3,4 millioner+	Agentbasert resonnement, verktøybruk, datasyn
MiniMax	13 millioner+	Agentbasert koding, verktøyorkestrering

DeepSeek brukte en bemerkelsesverdig teknikk: spørsmål (prompter) som ba Claude om å artikulere sin interne resonnering trinn for trinn, og genererte effektivt tankekjede-treningsdata i stor skala. De brukte også Claude til å generere sensursikre alternativer til politisk sensitive spørsmål – sannsynligvis for å trene sine egne modeller til å styre samtaler bort fra sensurerte emner. Anthropic sporet disse kontoene til spesifikke forskere ved laboratoriet.

Moonshot AI (Kimi-modeller) benyttet hundrevis av svindelkonti på tvers av flere tilgangsveier. I en senere fase skiftet Moonshot til en mer målrettet tilnærming, og forsøkte å utvinne og rekonstruere Claudes resonnementspor.

MiniMax kjørte den største kampanjen med over 13 millioner utvekslinger. Anthropic oppdaget denne kampanjen mens den fortsatt var aktiv – før MiniMax lanserte modellen den trente. Da Anthropic lanserte en ny modell under den aktive kampanjen, endret MiniMax retning innen 24 timer, og omdirigerte nesten halvparten av trafikken sin for å fange opp de nyeste kapasitetene.

Hvordan destillatører omgår tilgangsbegrensninger

Anthropic tilbyr ikke kommersiell Claude-tilgang i Kina av nasjonale sikkerhetsgrunner. Laboratoriene omgått dette gjennom kommersielle proxy-tjenester som videreselger tilgang til grensemodeller i stor skala.

Disse tjenestene kjører det Anthropic kaller "hydra-klynge"-arkitekturer: vidstrakte nettverk av svindelkonti som distribuerer trafikk over API-et og tredjeparts skyplattformer. Når en konto blir utestengt, erstattes den av en ny. Ett proxy-nettverk håndterte mer enn 20 000 svindelkonti samtidig, og blandet destillasjonstrafikk med urelaterte kundeforespørsler for å gjøre oppdagelse vanskeligere.

Det som skiller destillasjon fra normal bruk, er mønsteret. En enkelt spørsmål (prompt) kan virke uskyldig, men når variasjoner ankommer titusenvis av ganger over hundrevis av koordinerte kontoer, alle rettet mot den samme smale kapasiteten, blir mønsteret tydelig.

Nasjonal sikkerhetsimplikasjoner

Ulovlig destillerte modeller mangler sikkerhetsbarrierene som amerikanske selskaper bygger inn i frontlinjesystemer. Disse barrierene forhindrer at AI brukes til å utvikle biovåpen, utføre offensive cyberoperasjoner eller muliggjøre masseovervåking.

Modeller bygget gjennom ulovlig destillasjon vil sannsynligvis ikke beholde disse beskyttelsene. Utenlandske laboratorier kan mate ubeskyttede kapasiteter inn i militære, etterretnings- og overvåkingssystemer. Hvis destillerte modeller blir åpen kildekode, sprer farlige kapasiteter seg fritt utenfor enhver regjerings kontroll.

Destillasjonsangrep undergraver også USAs eksportkontroller. Uten innsyn i disse angrepene kan de tilsynelatende raske fremskrittene fra disse laboratoriene feilaktig tolkes som bevis på at eksportkontrollene er ineffektive. I realiteten avhenger fremskrittene av kapasiteter utvunnet fra amerikanske modeller, og å utføre utvinning i stor skala krever de avanserte brikkene som eksportkontrollene er utformet for å begrense.

Anthropics mottiltak

Anthropic implementerer flere forsvar mot destillasjonsangrep:

Deteksjonsklassifikatorer: Atferdsmessige fingeravtrykkssystemer som identifiserer destillasjonsmønstre i API-trafikk, inkludert tankekjede-fremkalling brukt til å konstruere treningsdata for resonnement
Etterretningsdeling: Tekniske indikatorer deles med andre AI-laboratorier, skyttleverandører og relevante myndigheter for et helhetlig bilde av destillasjonslandskapet
Tilgangskontroller: Styrket verifisering for utdanningskontoer, sikkerhetsforskningsprogrammer og startup-organisasjoner – de veiene som oftest utnyttes
Modellnivå-sikkerhetstiltak: Produkt-, API- og modellnivå-mottiltak designet for å redusere utdatadydeligheten for ulovlig destillasjon uten å forringe legitim bruk

Anthropic har også knyttet disse funnene til sin tidligere støtte til Claude Code Security kapasiteter for forsvarere, som en del av en bredere strategi for å sikre at frontlinje AI-kapasiteter forblir beskyttet.

Bransjeomfattende respons nødvendig

Anthropic understreker at ingen enkelt selskap kan løse destillasjonsangrep alene. Kampanjene utnytter kommersielle proxy-tjenester, tredjeparts skyplattformer og mangler i kontoverifisering som strekker seg over hele AI-økosystemet.

Den økende intensiteten og sofistikasjonen av disse kampanjene innsnevrer handlingsrommet. Anthropic har observert at destillatører tilpasser seg raskt: når nye modeller lanseres, endrer utvinningsinnsatsen retning innen timer. Når kontoer blir utestengt, erstatter proxy-nettverk dem umiddelbart gjennom hydra-klyngearkitekturer uten et enkelt feilpunkt.

Å håndtere trusselen krever koordinert handling blant AI-selskaper, skyttleverandører og beslutningstakere. Anthropic publiserte sine funn for å gjøre bevisene tilgjengelige for alle som har en interesse i å beskytte frontlinje AI-kapasiteter mot uautorisert utvinning. Selskapet oppfordrer til bransjeomfattende standarder for kontoverifisering, felles rammeverk for trusselintelligens, og politisk støtte for håndhevelse mot ulovlig destillasjon i stor skala.