Anthropic afslører destillationskampagner i industriel skala
Anthropic har offentliggjort beviser for, at tre AI-laboratorier – DeepSeek, Moonshot AI og MiniMax – udførte koordinerede kampagner for at udtrække Claudes kapaciteter gennem ulovlig destillation. Kampagnerne genererede over 16 millioner udvekslinger med Claude via cirka 24.000 svigagtige konti, hvilket overtræder Anthropics servicebetingelser og regionale adgangsbegrænsninger.
Destillation er en legitim teknik, hvor en mindre model trænes på output fra en stærkere model. Frontlinjelaboratorier destillerer regelmæssigt deres egne modeller for at skabe billigere versioner. Men når konkurrenter bruger destillation uden autorisation, opnår de kraftfulde kapaciteter til en brøkdel af omkostningerne og tiden, der kræves for uafhængig udvikling.
Angrebene målrettede Claudes mest differentierede funktioner: agentisk ræsonnement, brug af værktøjer og kodning – de samme kapaciteter, der driver Claude Opus 4.6 og Claude Sonnet 4.6.
Omfang og mål for hver kampagne
| Laboratorium | Udvekslinger | Primære mål |
|---|---|---|
| DeepSeek | 150.000+ | Ræsonnement, belønningsmodelbedømmelse, omgåelse af censur |
| Moonshot AI | 3,4 millioner+ | Agentisk ræsonnement, brug af værktøjer, computersyn |
| MiniMax | 13 millioner+ | Agentisk kodning, orkestrering af værktøjer |
DeepSeek anvendte en bemærkelsesværdig teknik: prompts, der bad Claude om at formulere sit interne ræsonnement trin for trin, hvilket effektivt genererede træningsdata for tankekæder i stor skala. De brugte også Claude til at generere censursikre alternativer til politisk følsomme forespørgsler – sandsynligvis for at træne deres egne modeller til at styre samtaler væk fra censurerede emner. Anthropic sporede disse konti til specifikke forskere hos laboratoriet.
Moonshot AI (Kimi-modeller) anvendte hundredvis af svigagtige konti på tværs af flere adgangsveje. I en senere fase skiftede Moonshot til en mere målrettet tilgang, hvor de forsøgte at udtrække og rekonstruere Claudes ræsonnementspor.
MiniMax kørte den største kampagne med over 13 millioner udvekslinger. Anthropic opdagede denne kampagne, mens den stadig var aktiv – før MiniMax udgav den model, de trænede. Da Anthropic udgav en ny model under den aktive kampagne, skiftede MiniMax kurs inden for 24 timer og omdirigerede næsten halvdelen af deres trafik for at indfange de seneste kapaciteter.
Hvordan destillatorer omgår adgangsbegrænsninger
Anthropic tilbyder ikke kommerciel Claude-adgang i Kina af nationale sikkerhedshensyn. Laboratorierne omgåede dette gennem kommercielle proxytjenester, der videresælger adgang til frontlinjemodeller i stor skala.
Disse tjenester driver, hvad Anthropic kalder "hydra-klyngestrukturer": vidtstrakte netværk af svigagtige konti, der distribuerer trafik på tværs af API'et og tredjeparts cloud-platforme. Når en konto bliver blokeret, erstatter en ny den. Et proxynetværk administrerede mere end 20.000 svigagtige konti samtidigt og blandede destillationstrafik med uafhængige kundeanmodninger for at gøre det sværere at opdage.
Hvad der adskiller destillation fra normal brug, er mønsteret. En enkelt prompt kan virke harmløs, men når variationer ankommer titusinder af gange på tværs af hundredvis af koordinerede konti, der alle er rettet mod den samme snævre kapacitet, bliver mønsteret tydeligt.
Nationale sikkerhedsmæssige implikationer
Ulovligt destillerede modeller mangler de sikkerhedsforanstaltninger, som amerikanske virksomheder bygger ind i frontlinjesystemer. Disse sikkerhedsforanstaltninger forhindrer AI i at blive brugt til at udvikle biovåben, udføre offensive cyberoperationer eller muliggøre masseovervågning.
Modeller bygget gennem ulovlig destillation vil sandsynligvis ikke bevare disse beskyttelser. Udenlandske laboratorier kan føde ubeskyttede kapaciteter ind i militære, efterretnings- og overvågningssystemer. Hvis destillerede modeller bliver open-sourced, spredes farlige kapaciteter frit uden for nogen regerings kontrol.
Destillationsangreb underminerer også amerikansk eksportkontrol. Uden indsigt i disse angreb kan de tilsyneladende hurtige fremskridt fra disse laboratorier fejlagtigt fortolkes som bevis for, at eksportkontrollen er ineffektiv. I virkeligheden afhænger fremskridtene af kapaciteter udvundet fra amerikanske modeller, og at udføre udvinding i stor skala kræver de avancerede chips, som eksportkontrollen er designet til at begrænse.
Anthropics modforanstaltninger
Anthropic implementerer flere forsvarsmekanismer mod destillationsangreb:
- Detektionsklassifikatorer: Adfærdsmæssige fingeraftrykssystemer, der identificerer destillationsmønstre i API-trafik, herunder elicitation af tankekæder, der bruges til at konstruere ræsonnements træningsdata
- Efterretningsdeling: Tekniske indikatorer deles med andre AI-laboratorier, cloud-udbydere og relevante myndigheder for et holistisk billede af destillationslandskabet
- Adgangskontrol: Styrket verifikation for uddannelseskonti, sikkerhedsforskningsprogrammer og startup-organisationer – de veje, der oftest udnyttes
- Modelleringssikkerhedsforanstaltninger: Produkt-, API- og modelniveau-modforanstaltninger designet til at reducere output-effektiviteten for ulovlig destillation uden at forringe legitim brug
Anthropic har også forbundet disse resultater med sin tidligere støtte til Claude Code Security-kapaciteter for forsvarere, som en del af en bredere strategi for at sikre, at frontlinje-AI-kapaciteter forbliver beskyttede.
Behov for en brancheomfattende indsats
Anthropic understreger, at intet enkelt firma kan løse destillationsangreb alene. Kampagnerne udnytter kommercielle proxytjenester, tredjeparts cloud-platforme og huller i kontoverifikation, der spænder over hele AI-økosystemet.
Den stigende intensitet og sofistikering af disse kampagner indsnævrer vinduet for handling. Anthropic har observeret, at destillatorer tilpasser sig hurtigt: når nye modeller frigives, skifter udvindingsindsatsen inden for timer. Når konti bliver blokeret, erstatter proxynetværk dem øjeblikkeligt gennem hydra-klyngestrukturer uden et enkelt fejlpunkt.
At håndtere truslen kræver koordineret handling blandt AI-virksomheder, cloud-udbydere og politiske beslutningstagere. Anthropic offentliggjorde sine fund for at gøre beviserne tilgængelige for alle med en interesse i at beskytte frontlinje-AI-kapaciteter mod uautoriseret udvinding. Virksomheden opfordrer til brancheomfattende standarder for kontoverifikation, delte trusselsinformationsrammer og politisk støtte til håndhævelse mod ulovlig destillation i stor skala.
Ofte stillede spørgsmål
Hvad er AI-destillationsangreb?
Hvilke virksomheder destillerede Claudes kapaciteter?
Hvorfor udgør destillationsangreb en national sikkerhedsrisiko?
Hvordan fik DeepSeek, Moonshot og MiniMax adgang til Claude?
Hvordan reagerer Anthropic på destillationsangreb?
Hvad udvandt DeepSeek specifikt fra Claude?
Hold dig opdateret
Få de seneste AI-nyheder i din indbakke.
