Hvad er AI-destillationsangreb?

AI-destillationsangreb involverer træning af en mindre kapabel model baseret på output fra en stærkere model uden autorisation. Konkurrenter genererer massive mængder omhyggeligt udformede prompts for at udtrække specifikke kapaciteter fra en frontlinjemodel og bruger derefter svarene til at træne deres egne systemer. Anthropic identificerede over 16 millioner ulovlige udvekslinger på tværs af cirka 24.000 svigagtige konti, som DeepSeek, Moonshot og MiniMax brugte til at udtrække Claudes kapaciteter.

Hvilke virksomheder destillerede Claudes kapaciteter?

Anthropic identificerede tre kinesiske AI-laboratorier, der udførte industrielle destillationskampagner: DeepSeek (over 150.000 udvekslinger rettet mod ræsonnement og omgåelse af censur), Moonshot AI (over 3,4 millioner udvekslinger rettet mod agentisk ræsonnement og brug af værktøjer) og MiniMax (over 13 millioner udvekslinger rettet mod agentisk kodning og orkestrering af værktøjer).

Hvorfor udgør destillationsangreb en national sikkerhedsrisiko?

Ulovligt destillerede modeller mangler de sikkerhedsforanstaltninger, som amerikanske virksomheder som Anthropic bygger ind i deres systemer. Disse ubeskyttede modeller kan anvendes til offensive cyberoperationer, desinformationskampagner, masseovervågning og endda støtte til udvikling af biovåben. Hvis destillerede modeller bliver open-sourced, spredes farlige kapaciteter uden for nogen enkelt regerings kontrol, hvilket underminerer eksportkontrollen, der er designet til at opretholde USA's AI-fordel.

Hvordan fik DeepSeek, Moonshot og MiniMax adgang til Claude?

Laboratorierne omgåede Anthropics regionale adgangsbegrænsninger ved hjælp af kommercielle proxytjenester, der videresælger Claude API-adgang i stor skala. Disse tjenester driver hydra-klyngestrukturer med vidtstrakte netværk af svigagtige konti distribueret på tværs af Anthropics API og tredjeparts cloud-platforme. Et proxynetværk administrerede mere end 20.000 svigagtige konti samtidigt og blandede destillationstrafik med legitime anmodninger for at undgå detektion.

Hvordan reagerer Anthropic på destillationsangreb?

Anthropic implementerer flere modforanstaltninger: adfærdsmæssige fingeraftryksklassifikatorer til at detektere destillationsmønstre i API-trafik, efterretningsdeling med andre AI-laboratorier og cloud-udbydere, styrket kontoverifikation og modelleringssikkerhedsforanstaltninger, der reducerer output-effektiviteten for ulovlig destillation uden at forringe tjenesten for legitime brugere. Anthropic opfordrer også til koordineret industri- og politisk respons.

Hvad udvandt DeepSeek specifikt fra Claude?

DeepSeek målrettede Claudes ræsonnement-kapaciteter, rubric-baserede bedømmelsesopgaver (der fik Claude til at fungere som en belønningsmodel for forstærkende læring) og censursikre alternativer til politisk følsomme forespørgsler. De brugte teknikker, der bad Claude om at formulere sit interne ræsonnement trin for trin, hvilket genererede træningsdata for tankekæder i stor skala. Anthropic sporede disse konti til specifikke forskere hos DeepSeek.

Anthropic afslører destillationsangreb fra DeepSeek og MiniMax

Anthropic afslører destillationskampagner i industriel skala

Anthropic har offentliggjort beviser for, at tre AI-laboratorier – DeepSeek, Moonshot AI og MiniMax – udførte koordinerede kampagner for at udtrække Claudes kapaciteter gennem ulovlig destillation. Kampagnerne genererede over 16 millioner udvekslinger med Claude via cirka 24.000 svigagtige konti, hvilket overtræder Anthropics servicebetingelser og regionale adgangsbegrænsninger.

Destillation er en legitim teknik, hvor en mindre model trænes på output fra en stærkere model. Frontlinjelaboratorier destillerer regelmæssigt deres egne modeller for at skabe billigere versioner. Men når konkurrenter bruger destillation uden autorisation, opnår de kraftfulde kapaciteter til en brøkdel af omkostningerne og tiden, der kræves for uafhængig udvikling.

Angrebene målrettede Claudes mest differentierede funktioner: agentisk ræsonnement, brug af værktøjer og kodning – de samme kapaciteter, der driver Claude Opus 4.6 og Claude Sonnet 4.6.

Omfang og mål for hver kampagne

Laboratorium	Udvekslinger	Primære mål
DeepSeek	150.000+	Ræsonnement, belønningsmodelbedømmelse, omgåelse af censur
Moonshot AI	3,4 millioner+	Agentisk ræsonnement, brug af værktøjer, computersyn
MiniMax	13 millioner+	Agentisk kodning, orkestrering af værktøjer

DeepSeek anvendte en bemærkelsesværdig teknik: prompts, der bad Claude om at formulere sit interne ræsonnement trin for trin, hvilket effektivt genererede træningsdata for tankekæder i stor skala. De brugte også Claude til at generere censursikre alternativer til politisk følsomme forespørgsler – sandsynligvis for at træne deres egne modeller til at styre samtaler væk fra censurerede emner. Anthropic sporede disse konti til specifikke forskere hos laboratoriet.

Moonshot AI (Kimi-modeller) anvendte hundredvis af svigagtige konti på tværs af flere adgangsveje. I en senere fase skiftede Moonshot til en mere målrettet tilgang, hvor de forsøgte at udtrække og rekonstruere Claudes ræsonnementspor.

MiniMax kørte den største kampagne med over 13 millioner udvekslinger. Anthropic opdagede denne kampagne, mens den stadig var aktiv – før MiniMax udgav den model, de trænede. Da Anthropic udgav en ny model under den aktive kampagne, skiftede MiniMax kurs inden for 24 timer og omdirigerede næsten halvdelen af deres trafik for at indfange de seneste kapaciteter.

Hvordan destillatorer omgår adgangsbegrænsninger

Anthropic tilbyder ikke kommerciel Claude-adgang i Kina af nationale sikkerhedshensyn. Laboratorierne omgåede dette gennem kommercielle proxytjenester, der videresælger adgang til frontlinjemodeller i stor skala.

Disse tjenester driver, hvad Anthropic kalder "hydra-klyngestrukturer": vidtstrakte netværk af svigagtige konti, der distribuerer trafik på tværs af API'et og tredjeparts cloud-platforme. Når en konto bliver blokeret, erstatter en ny den. Et proxynetværk administrerede mere end 20.000 svigagtige konti samtidigt og blandede destillationstrafik med uafhængige kundeanmodninger for at gøre det sværere at opdage.

Hvad der adskiller destillation fra normal brug, er mønsteret. En enkelt prompt kan virke harmløs, men når variationer ankommer titusinder af gange på tværs af hundredvis af koordinerede konti, der alle er rettet mod den samme snævre kapacitet, bliver mønsteret tydeligt.

Nationale sikkerhedsmæssige implikationer

Ulovligt destillerede modeller mangler de sikkerhedsforanstaltninger, som amerikanske virksomheder bygger ind i frontlinjesystemer. Disse sikkerhedsforanstaltninger forhindrer AI i at blive brugt til at udvikle biovåben, udføre offensive cyberoperationer eller muliggøre masseovervågning.

Modeller bygget gennem ulovlig destillation vil sandsynligvis ikke bevare disse beskyttelser. Udenlandske laboratorier kan føde ubeskyttede kapaciteter ind i militære, efterretnings- og overvågningssystemer. Hvis destillerede modeller bliver open-sourced, spredes farlige kapaciteter frit uden for nogen regerings kontrol.

Destillationsangreb underminerer også amerikansk eksportkontrol. Uden indsigt i disse angreb kan de tilsyneladende hurtige fremskridt fra disse laboratorier fejlagtigt fortolkes som bevis for, at eksportkontrollen er ineffektiv. I virkeligheden afhænger fremskridtene af kapaciteter udvundet fra amerikanske modeller, og at udføre udvinding i stor skala kræver de avancerede chips, som eksportkontrollen er designet til at begrænse.

Anthropics modforanstaltninger

Anthropic implementerer flere forsvarsmekanismer mod destillationsangreb:

Detektionsklassifikatorer: Adfærdsmæssige fingeraftrykssystemer, der identificerer destillationsmønstre i API-trafik, herunder elicitation af tankekæder, der bruges til at konstruere ræsonnements træningsdata
Efterretningsdeling: Tekniske indikatorer deles med andre AI-laboratorier, cloud-udbydere og relevante myndigheder for et holistisk billede af destillationslandskabet
Adgangskontrol: Styrket verifikation for uddannelseskonti, sikkerhedsforskningsprogrammer og startup-organisationer – de veje, der oftest udnyttes
Modelleringssikkerhedsforanstaltninger: Produkt-, API- og modelniveau-modforanstaltninger designet til at reducere output-effektiviteten for ulovlig destillation uden at forringe legitim brug

Anthropic har også forbundet disse resultater med sin tidligere støtte til Claude Code Security-kapaciteter for forsvarere, som en del af en bredere strategi for at sikre, at frontlinje-AI-kapaciteter forbliver beskyttede.

Behov for en brancheomfattende indsats

Anthropic understreger, at intet enkelt firma kan løse destillationsangreb alene. Kampagnerne udnytter kommercielle proxytjenester, tredjeparts cloud-platforme og huller i kontoverifikation, der spænder over hele AI-økosystemet.

Den stigende intensitet og sofistikering af disse kampagner indsnævrer vinduet for handling. Anthropic har observeret, at destillatorer tilpasser sig hurtigt: når nye modeller frigives, skifter udvindingsindsatsen inden for timer. Når konti bliver blokeret, erstatter proxynetværk dem øjeblikkeligt gennem hydra-klyngestrukturer uden et enkelt fejlpunkt.

At håndtere truslen kræver koordineret handling blandt AI-virksomheder, cloud-udbydere og politiske beslutningstagere. Anthropic offentliggjorde sine fund for at gøre beviserne tilgængelige for alle med en interesse i at beskytte frontlinje-AI-kapaciteter mod uautoriseret udvinding. Virksomheden opfordrer til brancheomfattende standarder for kontoverifikation, delte trusselsinformationsrammer og politisk støtte til håndhævelse mod ulovlig destillation i stor skala.