Wat zijn AI-destillatieaanvallen?

AI-destillatieaanvallen houden in dat een minder capabel model wordt getraind op de output van een sterker model zonder autorisatie. Concurrenten genereren enorme hoeveelheden zorgvuldig opgestelde prompts om specifieke mogelijkheden uit een baanbrekend model te extraheren, en gebruiken vervolgens de antwoorden om hun eigen systemen te trainen. Anthropic identificeerde meer dan 16 miljoen illegale uitwisselingen via ongeveer 24.000 frauduleuze accounts, gebruikt door DeepSeek, Moonshot en MiniMax om de mogelijkheden van Claude te extraheren.

Welke bedrijven hebben de mogelijkheden van Claude gedestilleerd?

Anthropic identificeerde drie Chinese AI-laboratoria die industriële destillatiecampagnes uitvoerden: DeepSeek (meer dan 150.000 uitwisselingen gericht op redenering en omzeiling van censuur), Moonshot AI (meer dan 3,4 miljoen uitwisselingen gericht op agentische redenering en toolgebruik), en MiniMax (meer dan 13 miljoen uitwisselingen gericht op agentisch coderen en toolorkestratie).

Waarom vormen destillatieaanvallen een nationaal veiligheidsrisico?

Illegaal gedestilleerde modellen missen de veiligheidsvangrails die Amerikaanse bedrijven zoals Anthropic in hun systemen inbouwen. Deze onbeschermde modellen kunnen worden ingezet voor offensieve cyberoperaties, desinformatiecampagnes, massasurveillance en zelfs ondersteuning bij de ontwikkeling van biowapens. Als gedestilleerde modellen open-source worden gemaakt, verspreiden gevaarlijke mogelijkheden zich buiten de controle van welke regering dan ook, wat exportcontroles ondermijnt die zijn ontworpen om Amerika's AI-voorsprong te behouden.

Hoe kregen DeepSeek, Moonshot en MiniMax toegang tot Claude?

De labs omzeilden de regionale toegangsbeperkingen van Anthropic met behulp van commerciële proxydiensten die Claude API-toegang op schaal doorverkopen. Deze diensten gebruiken hydra cluster-architecturen met uitgebreide netwerken van frauduleuze accounts, verspreid over de API van Anthropic en cloudplatforms van derden. Eén proxynetwerk beheerde gelijktijdig meer dan 20.000 frauduleuze accounts, waarbij destillatieverkeer werd gemengd met legitieme verzoeken om detectie te voorkomen.

Hoe reageert Anthropic op destillatieaanvallen?

Anthropic zet meerdere tegenmaatregelen in: gedragsvingerafdrukclassificatoren om destillatiepatronen in API-verkeer te detecteren, uitwisseling van inlichtingen met andere AI-labs en cloudproviders, verscherpte accountverificatie en beveiligingen op modelniveau die de outputeffectiviteit voor illegale destillatie verminderen zonder de service voor legitieme gebruikers te verslechteren. Anthropic roept ook op tot gecoördineerde sector- en beleidsreacties.

Wat heeft DeepSeek specifiek uit Claude geëxtraheerd?

DeepSeek richtte zich op de redeneermogelijkheden van Claude, rubrieksgebaseerde beoordelingstaken (waardoor Claude functioneerde als een beloningsmodel voor reinforcement learning), en censuurveilige alternatieven voor politiek gevoelige vragen. Ze gebruikten technieken die Claude vroegen om zijn interne redenering stap voor stap te articuleren, waardoor trainingsgegevens voor gedachteketens op schaal werden gegenereerd. Anthropic traceerde deze accounts naar specifieke onderzoekers bij DeepSeek.

Anthropic onthult destillatieaanvallen door DeepSeek en MiniMax

Anthropic onthult industriële destillatiecampagnes

Anthropic heeft bewijs gepubliceerd dat drie AI-laboratoria – DeepSeek, Moonshot AI en MiniMax – gecoördineerde campagnes hebben uitgevoerd om de mogelijkheden van Claude te extraheren via illegale destillatie. De campagnes genereerden meer dan 16 miljoen uitwisselingen met Claude via ongeveer 24.000 frauduleuze accounts, wat een schending is van de servicevoorwaarden en regionale toegangsbeperkingen van Anthropic.

Destillatie is een legitieme techniek waarbij een kleiner model wordt getraind op de outputs van een sterker model. Baanbrekende labs destilleren regelmatig hun eigen modellen om goedkopere versies te creëren. Maar wanneer concurrenten destillatie zonder autorisatie gebruiken, verwerven ze krachtige mogelijkheden tegen een fractie van de kosten en tijd die nodig zijn voor onafhankelijke ontwikkeling.

De aanvallen waren gericht op de meest onderscheidende kenmerken van Claude: agentische redenering, toolgebruik en coderen – dezelfde mogelijkheden die Claude Opus 4.6 en Claude Sonnet 4.6 aandrijven.

Schaal en doelen van elke campagne

Lab	Uitwisselingen	Primaire Doelen
DeepSeek	150.000+	Redenering, beloningsmodelbeoordeling, omzeiling van censuur
Moonshot AI	3,4 miljoen+	Agentische redenering, toolgebruik, computervisie
MiniMax	13 miljoen+	Agentisch coderen, toolorkestratie

DeepSeek gebruikte een opvallende techniek: prompts die Claude vroegen zijn interne redenering stap voor stap te articuleren, waardoor effectief trainingsgegevens voor gedachteketens op schaal werden gegenereerd. Ze gebruikten Claude ook om censuurveilige alternatieven te genereren voor politiek gevoelige vragen – waarschijnlijk om hun eigen modellen te trainen om gesprekken weg te sturen van gecensureerde onderwerpen. Anthropic traceerde deze accounts naar specifieke onderzoekers in het lab.

Moonshot AI (Kimi-modellen) gebruikte honderden frauduleuze accounts via meerdere toegangspaden. In een latere fase schakelde Moonshot over op een gerichtere aanpak, waarbij geprobeerd werd de redeneringssporen van Claude te extraheren en te reconstrueren.

MiniMax voerde de grootste campagne uit met meer dan 13 miljoen uitwisselingen. Anthropic detecteerde deze campagne terwijl deze nog actief was – voordat MiniMax het model dat het aan het trainen was, vrijgaf. Toen Anthropic een nieuw model uitbracht tijdens de actieve campagne, schakelde MiniMax binnen 24 uur om, waarbij bijna de helft van hun verkeer werd omgeleid om de nieuwste mogelijkheden te verkrijgen.

Hoe distillateurs toegangsbeperkingen omzeilen

Anthropic biedt commerciële Claude-toegang in China niet aan vanwege nationale veiligheidsredenen. De labs omzeilden dit via commerciële proxydiensten die toegang tot grensverleggende modellen op schaal doorverkopen.

Deze diensten gebruiken wat Anthropic "hydra cluster"-architecturen noemt: uitgebreide netwerken van frauduleuze accounts die verkeer verdelen over de API en cloudplatforms van derden. Wanneer één account wordt geblokkeerd, vervangt een nieuw account deze. Eén proxynetwerk beheerde gelijktijdig meer dan 20.000 frauduleuze accounts, waarbij destillatieverkeer werd gemengd met niet-gerelateerde klantverzoeken om detectie moeilijker te maken.

Wat destillatie onderscheidt van normaal gebruik, is het patroon. Een enkele prompt kan goedaardig lijken, maar wanneer variaties tienduizenden keren aankomen via honderden gecoördineerde accounts, allemaal gericht op dezelfde smalle mogelijkheid, wordt het patroon duidelijk.

Nationale veiligheidsimplicaties

Illegaal gedestilleerde modellen missen de veiligheidsvangrails die Amerikaanse bedrijven in baanbrekende systemen inbouwen. Deze vangrails voorkomen dat AI wordt gebruikt voor het ontwikkelen van biowapens, het uitvoeren van offensieve cyberoperaties of het mogelijk maken van massasurveillance.

Modellen die zijn gebouwd door illegale destillatie zullen die bescherming waarschijnlijk niet behouden. Buitenlandse labs kunnen onbeschermde mogelijkheden invoeren in militaire, inlichtingen- en surveillancesystemen. Als gedestilleerde modellen open-source worden gemaakt, verspreiden gevaarlijke mogelijkheden zich vrijelijk buiten de controle van welke regering dan ook.

Destillatieaanvallen ondermijnen ook de Amerikaanse exportcontroles. Zonder inzicht in deze aanvallen kunnen de ogenschijnlijk snelle vooruitgangen van deze labs onjuist worden geïnterpreteerd als bewijs dat exportcontroles ineffectief zijn. In werkelijkheid zijn de vooruitgangen afhankelijk van mogelijkheden die zijn geëxtraheerd uit Amerikaanse modellen, en het uitvoeren van extractie op schaal vereist de geavanceerde chips die exportcontroles moeten beperken.

Tegenmaatregelen van Anthropic

Anthropic zet meerdere verdedigingsmechanismen in tegen destillatieaanvallen:

Detectieclassificatoren: Gedragsvingerafdruksystemen die destillatiepatronen in API-verkeer identificeren, inclusief gedachteketenextractie die wordt gebruikt om redeneringstrainingsgegevens te construeren.
Uitwisseling van inlichtingen: Technische indicatoren gedeeld met andere AI-labs, cloudproviders en relevante autoriteiten voor een holistisch beeld van het destillatielandschap.
Toegangscontroles: Verscherpte verificatie voor onderwijsaccounts, beveiligingsonderzoeksprogramma's en startende organisaties – de paden die het meest worden misbruikt.
Beveiligingen op modelniveau: Product-, API- en modelniveau-tegenmaatregelen die zijn ontworpen om de outputeffectiviteit voor illegale destillatie te verminderen zonder legitiem gebruik te verslechteren.

Anthropic heeft deze bevindingen ook gekoppeld aan zijn eerdere ondersteuning voor Claude Code Security-mogelijkheden voor verdedigers, als onderdeel van een bredere strategie om ervoor te zorgen dat baanbrekende AI-mogelijkheden beschermd blijven.

Branchebrede reactie nodig

Anthropic benadrukt dat geen enkel bedrijf destillatieaanvallen alleen kan oplossen. De campagnes misbruiken commerciële proxydiensten, cloudplatforms van derden en hiaten in accountverificatie die het hele AI-ecosysteem omvatten.

De groeiende intensiteit en verfijning van deze campagnes verkleinen de tijd om te handelen. Anthropic heeft waargenomen dat distillateurs zich snel aanpassen: wanneer nieuwe modellen worden uitgebracht, verschuiven de extractiepogingen binnen enkele uren. Wanneer accounts worden geblokkeerd, vervangen proxynetwerken deze onmiddellijk via hydra cluster-architecturen zonder enkel faalpunt.

Het aanpakken van de dreiging vereist gecoördineerde actie tussen AI-bedrijven, cloudproviders en beleidsmakers. Anthropic heeft zijn bevindingen gepubliceerd om het bewijsmateriaal beschikbaar te maken voor iedereen die belang heeft bij het beschermen van baanbrekende AI-mogelijkheden tegen ongeoorloofde extractie. Het bedrijf roept op tot branchebrede standaarden voor accountverificatie, gedeelde kaders voor dreigingsinformatie en beleidsondersteuning voor handhaving tegen illegale destillatie op schaal.