Anthropic révèle des campagnes de distillation à l'échelle industrielle
Anthropic a publié des preuves que trois laboratoires d'IA — DeepSeek, Moonshot AI et MiniMax — ont mené des campagnes coordonnées pour extraire les capacités de Claude par distillation illicite. Ces campagnes ont généré plus de 16 millions d'échanges avec Claude via environ 24 000 comptes frauduleux, violant ainsi les conditions de service et les restrictions d'accès régionales d'Anthropic.
La distillation est une technique légitime où un modèle plus petit est entraîné sur les sorties d'un modèle plus puissant. Les laboratoires de pointe distillent régulièrement leurs propres modèles pour créer des versions moins coûteuses. Mais lorsque des concurrents utilisent la distillation sans autorisation, ils acquièrent des capacités puissantes pour une fraction du coût et du temps nécessaires à un développement indépendant.
Les attaques ont ciblé les fonctionnalités les plus différenciées de Claude : le raisonnement agentique, l'utilisation d'outils et le codage — les mêmes capacités qui animent Claude Opus 4.6 et Claude Sonnet 4.6.
Étendue et cibles de chaque campagne
| Laboratoire | Échanges | Cibles principales |
|---|---|---|
| DeepSeek | 150 000+ | Raisonnement, notation par modèle de récompense, contournements de censure |
| Moonshot AI | 3,4 millions+ | Raisonnement agentique, utilisation d'outils, vision par ordinateur |
| MiniMax | 13 millions+ | Codage agentique, orchestration d'outils |
DeepSeek a utilisé une technique notable : des invites demandant à Claude d'articuler son raisonnement interne étape par étape, générant ainsi des données d'entraînement de type "chaîne de pensée" à grande échelle. Ils ont également utilisé Claude pour générer des alternatives sans censure pour les requêtes politiquement sensibles — probablement pour entraîner leurs propres modèles à détourner les conversations des sujets censurés. Anthropic a retracé ces comptes jusqu'à des chercheurs spécifiques du laboratoire.
Moonshot AI (modèles Kimi) a employé des centaines de comptes frauduleux via de multiples voies d'accès. Dans une phase ultérieure, Moonshot est passée à une approche plus ciblée, tentant d'extraire et de reconstruire les traces de raisonnement de Claude.
MiniMax a mené la plus grande campagne avec plus de 13 millions d'échanges. Anthropic a détecté cette campagne alors qu'elle était encore active — avant que MiniMax ne publie le modèle qu'elle entraînait. Lorsqu'Anthropic a publié un nouveau modèle pendant la campagne active, MiniMax a réagi en 24 heures, redirigeant près de la moitié de son trafic pour capturer les dernières capacités.
Comment les "distillateurs" contournent les restrictions d'accès
Anthropic ne propose pas d'accès commercial à Claude en Chine pour des raisons de sécurité nationale. Les laboratoires ont contourné cette restriction via des services de proxy commerciaux qui revendent l'accès aux modèles de pointe à grande échelle.
Ces services exploitent ce qu'Anthropic appelle des architectures en "grappe d'hydre" : des réseaux tentaculaires de comptes frauduleux qui distribuent le trafic sur l'API et les plateformes cloud tierces. Lorsqu'un compte est banni, un nouveau le remplace. Un réseau de proxy a géré simultanément plus de 20 000 comptes frauduleux, mélangeant le trafic de distillation avec des requêtes clients sans rapport pour rendre la détection plus difficile.
Ce qui distingue la distillation de l'utilisation normale, c'est le schéma. Une seule invite peut sembler bénigne, mais lorsque des variations arrivent des dizaines de milliers de fois via des centaines de comptes coordonnés, toutes ciblant la même capacité étroite, le schéma devient évident.
Implications pour la sécurité nationale
Les modèles distillés de manière illicite ne disposent pas des garde-fous de sécurité que les entreprises américaines intègrent dans leurs systèmes de pointe. Ces garde-fous empêchent l'IA d'être utilisée pour développer des armes biologiques, mener des opérations cyberoffensives ou permettre la surveillance de masse.
Les modèles construits par distillation illicite sont peu susceptibles de conserver ces protections. Les laboratoires étrangers peuvent injecter des capacités non protégées dans les systèmes militaires, de renseignement et de surveillance. Si les modèles distillés sont mis en open source, des capacités dangereuses se répandent librement au-delà du contrôle de tout gouvernement.
Les attaques par distillation sapent également les contrôles à l'exportation américains. Sans visibilité sur ces attaques, les progrès apparemment rapides de ces laboratoires peuvent être interprétés à tort comme une preuve de l'inefficacité des contrôles à l'exportation. En réalité, ces progrès dépendent de capacités extraites de modèles américains, et l'exécution de l'extraction à grande échelle nécessite les puces avancées que les contrôles à l'exportation visent à restreindre.
Contre-mesures d'Anthropic
Anthropic déploie de multiples défenses contre les attaques par distillation :
- Classificateurs de détection : Systèmes d'empreintes comportementales qui identifient les schémas de distillation dans le trafic API, y compris l'élicitation de chaînes de pensée utilisée pour construire des données d'entraînement au raisonnement.
- Partage de renseignements : Indicateurs techniques partagés avec d'autres laboratoires d'IA, fournisseurs de cloud et autorités compétentes pour une vision holistique du paysage de la distillation.
- Contrôles d'accès : Vérification renforcée pour les comptes éducatifs, les programmes de recherche en sécurité et les organisations de startup — les voies les plus couramment exploitées.
- Garde-fous au niveau du modèle : Contre-mesures au niveau du produit, de l'API et du modèle conçues pour réduire l'efficacité des sorties pour la distillation illicite sans dégrader l'utilisation légitime.
Anthropic a également lié ces découvertes à son soutien antérieur aux capacités de Sécurité du code Claude pour les défenseurs, dans le cadre d'une stratégie plus large visant à garantir la protection des capacités d'IA de pointe.
Une réponse sectorielle est nécessaire
Anthropic souligne qu'aucune entreprise ne peut résoudre seule les attaques par distillation. Les campagnes exploitent les services de proxy commerciaux, les plateformes cloud tierces et les lacunes dans la vérification des comptes qui s'étendent à l'ensemble de l'écosystème de l'IA.
L'intensité et la sophistication croissantes de ces campagnes réduisent la fenêtre d'action. Anthropic a observé que les distillateurs s'adaptent rapidement : lorsque de nouveaux modèles sont publiés, les efforts d'extraction basculent en quelques heures. Lorsque des comptes sont bannis, les réseaux de proxy les remplacent immédiatement via des architectures en grappe d'hydre sans point de défaillance unique.
Pour faire face à cette menace, une action coordonnée entre les entreprises d'IA, les fournisseurs de cloud et les décideurs politiques est nécessaire. Anthropic a publié ses conclusions pour rendre les preuves disponibles à tous ceux qui ont un intérêt à protéger les capacités d'IA de pointe contre l'extraction non autorisée. L'entreprise appelle à des normes sectorielles en matière de vérification des comptes, à des cadres de partage de renseignements sur les menaces et à un soutien politique pour l'application des mesures contre la distillation illicite à grande échelle.
Questions Fréquentes
Que sont les attaques par distillation d'IA ?
Quelles entreprises ont distillé les capacités de Claude ?
Pourquoi les attaques par distillation représentent-elles un risque pour la sécurité nationale ?
Comment DeepSeek, Moonshot et MiniMax ont-ils accédé à Claude ?
Comment Anthropic réagit-elle aux attaques par distillation ?
Qu'est-ce que DeepSeek a spécifiquement extrait de Claude ?
Restez informé
Recevez les dernières actualités IA dans votre boîte mail.
