Que sont les attaques par distillation d'IA ?

Les attaques par distillation d'IA impliquent l'entraînement d'un modèle moins performant sur les sorties d'un modèle plus puissant sans autorisation. Les concurrents génèrent des volumes massifs d'invites soigneusement conçues pour extraire des capacités spécifiques d'un modèle de pointe, puis utilisent les réponses pour entraîner leurs propres systèmes. Anthropic a identifié plus de 16 millions d'échanges illicites via environ 24 000 comptes frauduleux utilisés par DeepSeek, Moonshot et MiniMax pour extraire les capacités de Claude.

Quelles entreprises ont distillé les capacités de Claude ?

Anthropic a identifié trois laboratoires d'IA chinois menant des campagnes de distillation à l'échelle industrielle : DeepSeek (plus de 150 000 échanges ciblant le raisonnement et les contournements de censure), Moonshot AI (plus de 3,4 millions d'échanges ciblant le raisonnement agentique et l'utilisation d'outils), et MiniMax (plus de 13 millions d'échanges ciblant le codage agentique et l'orchestration d'outils).

Pourquoi les attaques par distillation représentent-elles un risque pour la sécurité nationale ?

Les modèles distillés de manière illicite ne disposent pas des garde-fous de sécurité que les entreprises américaines comme Anthropic intègrent à leurs systèmes. Ces modèles non protégés peuvent être déployés pour des opérations cyberoffensives, des campagnes de désinformation, la surveillance de masse, et même le soutien au développement de bio-armes. Si les modèles distillés sont mis en open-source, des capacités dangereuses se répandent au-delà du contrôle d'un seul gouvernement, sapant les contrôles à l'exportation conçus pour maintenir l'avantage américain en IA.

Comment DeepSeek, Moonshot et MiniMax ont-ils accédé à Claude ?

Les laboratoires ont contourné les restrictions d'accès régionales d'Anthropic en utilisant des services de proxy commerciaux qui revendent l'accès à l'API de Claude à grande échelle. Ces services exploitent des architectures en "grappe d'hydre" avec des réseaux tentaculaires de comptes frauduleux distribués sur l'API d'Anthropic et les plateformes cloud tierces. Un réseau de proxy a géré simultanément plus de 20 000 comptes frauduleux, mélangeant le trafic de distillation avec des requêtes légitimes pour éviter la détection.

Comment Anthropic réagit-elle aux attaques par distillation ?

Anthropic déploie plusieurs contre-mesures : des classificateurs d'empreintes comportementales pour détecter les schémas de distillation dans le trafic API, le partage de renseignements avec d'autres laboratoires d'IA et fournisseurs de cloud, une vérification de compte renforcée, et des garde-fous au niveau du modèle qui réduisent l'efficacité des sorties pour la distillation illicite sans dégrader le service pour les utilisateurs légitimes. Anthropic appelle également à des réponses coordonnées de l'industrie et des politiques publiques.

Qu'est-ce que DeepSeek a spécifiquement extrait de Claude ?

DeepSeek a ciblé les capacités de raisonnement de Claude, les tâches de notation basées sur des rubriques (faisant de Claude un modèle de récompense pour l'apprentissage par renforcement), et des alternatives sans censure pour les requêtes politiquement sensibles. Ils ont utilisé des techniques qui demandaient à Claude d'articuler son raisonnement interne étape par étape, générant des données d'entraînement de type "chaîne de pensée" à grande échelle. Anthropic a retracé ces comptes jusqu'à des chercheurs spécifiques chez DeepSeek.

Anthropic révèle des attaques par distillation de DeepSeek et MiniMax

Anthropic révèle des campagnes de distillation à l'échelle industrielle

Anthropic a publié des preuves que trois laboratoires d'IA — DeepSeek, Moonshot AI et MiniMax — ont mené des campagnes coordonnées pour extraire les capacités de Claude par distillation illicite. Ces campagnes ont généré plus de 16 millions d'échanges avec Claude via environ 24 000 comptes frauduleux, violant ainsi les conditions de service et les restrictions d'accès régionales d'Anthropic.

La distillation est une technique légitime où un modèle plus petit est entraîné sur les sorties d'un modèle plus puissant. Les laboratoires de pointe distillent régulièrement leurs propres modèles pour créer des versions moins coûteuses. Mais lorsque des concurrents utilisent la distillation sans autorisation, ils acquièrent des capacités puissantes pour une fraction du coût et du temps nécessaires à un développement indépendant.

Les attaques ont ciblé les fonctionnalités les plus différenciées de Claude : le raisonnement agentique, l'utilisation d'outils et le codage — les mêmes capacités qui animent Claude Opus 4.6 et Claude Sonnet 4.6.

Étendue et cibles de chaque campagne

Laboratoire	Échanges	Cibles principales
DeepSeek	150 000+	Raisonnement, notation par modèle de récompense, contournements de censure
Moonshot AI	3,4 millions+	Raisonnement agentique, utilisation d'outils, vision par ordinateur
MiniMax	13 millions+	Codage agentique, orchestration d'outils

DeepSeek a utilisé une technique notable : des invites demandant à Claude d'articuler son raisonnement interne étape par étape, générant ainsi des données d'entraînement de type "chaîne de pensée" à grande échelle. Ils ont également utilisé Claude pour générer des alternatives sans censure pour les requêtes politiquement sensibles — probablement pour entraîner leurs propres modèles à détourner les conversations des sujets censurés. Anthropic a retracé ces comptes jusqu'à des chercheurs spécifiques du laboratoire.

Moonshot AI (modèles Kimi) a employé des centaines de comptes frauduleux via de multiples voies d'accès. Dans une phase ultérieure, Moonshot est passée à une approche plus ciblée, tentant d'extraire et de reconstruire les traces de raisonnement de Claude.

MiniMax a mené la plus grande campagne avec plus de 13 millions d'échanges. Anthropic a détecté cette campagne alors qu'elle était encore active — avant que MiniMax ne publie le modèle qu'elle entraînait. Lorsqu'Anthropic a publié un nouveau modèle pendant la campagne active, MiniMax a réagi en 24 heures, redirigeant près de la moitié de son trafic pour capturer les dernières capacités.

Comment les "distillateurs" contournent les restrictions d'accès

Anthropic ne propose pas d'accès commercial à Claude en Chine pour des raisons de sécurité nationale. Les laboratoires ont contourné cette restriction via des services de proxy commerciaux qui revendent l'accès aux modèles de pointe à grande échelle.

Ces services exploitent ce qu'Anthropic appelle des architectures en "grappe d'hydre" : des réseaux tentaculaires de comptes frauduleux qui distribuent le trafic sur l'API et les plateformes cloud tierces. Lorsqu'un compte est banni, un nouveau le remplace. Un réseau de proxy a géré simultanément plus de 20 000 comptes frauduleux, mélangeant le trafic de distillation avec des requêtes clients sans rapport pour rendre la détection plus difficile.

Ce qui distingue la distillation de l'utilisation normale, c'est le schéma. Une seule invite peut sembler bénigne, mais lorsque des variations arrivent des dizaines de milliers de fois via des centaines de comptes coordonnés, toutes ciblant la même capacité étroite, le schéma devient évident.

Implications pour la sécurité nationale

Les modèles distillés de manière illicite ne disposent pas des garde-fous de sécurité que les entreprises américaines intègrent dans leurs systèmes de pointe. Ces garde-fous empêchent l'IA d'être utilisée pour développer des armes biologiques, mener des opérations cyberoffensives ou permettre la surveillance de masse.

Les modèles construits par distillation illicite sont peu susceptibles de conserver ces protections. Les laboratoires étrangers peuvent injecter des capacités non protégées dans les systèmes militaires, de renseignement et de surveillance. Si les modèles distillés sont mis en open source, des capacités dangereuses se répandent librement au-delà du contrôle de tout gouvernement.

Les attaques par distillation sapent également les contrôles à l'exportation américains. Sans visibilité sur ces attaques, les progrès apparemment rapides de ces laboratoires peuvent être interprétés à tort comme une preuve de l'inefficacité des contrôles à l'exportation. En réalité, ces progrès dépendent de capacités extraites de modèles américains, et l'exécution de l'extraction à grande échelle nécessite les puces avancées que les contrôles à l'exportation visent à restreindre.

Contre-mesures d'Anthropic

Anthropic déploie de multiples défenses contre les attaques par distillation :

Classificateurs de détection : Systèmes d'empreintes comportementales qui identifient les schémas de distillation dans le trafic API, y compris l'élicitation de chaînes de pensée utilisée pour construire des données d'entraînement au raisonnement.
Partage de renseignements : Indicateurs techniques partagés avec d'autres laboratoires d'IA, fournisseurs de cloud et autorités compétentes pour une vision holistique du paysage de la distillation.
Contrôles d'accès : Vérification renforcée pour les comptes éducatifs, les programmes de recherche en sécurité et les organisations de startup — les voies les plus couramment exploitées.
Garde-fous au niveau du modèle : Contre-mesures au niveau du produit, de l'API et du modèle conçues pour réduire l'efficacité des sorties pour la distillation illicite sans dégrader l'utilisation légitime.

Anthropic a également lié ces découvertes à son soutien antérieur aux capacités de Sécurité du code Claude pour les défenseurs, dans le cadre d'une stratégie plus large visant à garantir la protection des capacités d'IA de pointe.

Une réponse sectorielle est nécessaire

Anthropic souligne qu'aucune entreprise ne peut résoudre seule les attaques par distillation. Les campagnes exploitent les services de proxy commerciaux, les plateformes cloud tierces et les lacunes dans la vérification des comptes qui s'étendent à l'ensemble de l'écosystème de l'IA.

L'intensité et la sophistication croissantes de ces campagnes réduisent la fenêtre d'action. Anthropic a observé que les distillateurs s'adaptent rapidement : lorsque de nouveaux modèles sont publiés, les efforts d'extraction basculent en quelques heures. Lorsque des comptes sont bannis, les réseaux de proxy les remplacent immédiatement via des architectures en grappe d'hydre sans point de défaillance unique.

Pour faire face à cette menace, une action coordonnée entre les entreprises d'IA, les fournisseurs de cloud et les décideurs politiques est nécessaire. Anthropic a publié ses conclusions pour rendre les preuves disponibles à tous ceux qui ont un intérêt à protéger les capacités d'IA de pointe contre l'extraction non autorisée. L'entreprise appelle à des normes sectorielles en matière de vérification des comptes, à des cadres de partage de renseignements sur les menaces et à un soutien politique pour l'application des mesures contre la distillation illicite à grande échelle.