Què són els atacs de destil·lació d'IA?

Els atacs de destil·lació d'IA impliquen entrenar un model menys capaç a partir de les sortides d'un altre de més potent sense autorització. Els competidors generen volums massius de peticions (prompts) curosament dissenyades per extreure capacitats específiques d'un model d'avantguarda, i després utilitzen les respostes per entrenar els seus propis sistemes. Anthropic va identificar més de 16 milions d'intercanvis il·lícits a través d'aproximadament 24.000 comptes fraudulents utilitzats per DeepSeek, Moonshot i MiniMax per extreure les capacitats de Claude.

Quines empreses van destil·lar les capacitats de Claude?

Anthropic va identificar tres laboratoris xinesos d'IA que duien a terme campanyes de destil·lació a escala industrial: DeepSeek (més de 150.000 intercanvis dirigits al raonament i solucions per a la censura), Moonshot AI (més de 3,4 milions d'intercanvis dirigits al raonament agent i l'ús d'eines), i MiniMax (més de 13 milions d'intercanvis dirigits a la codificació agent i l'orquestració d'eines).

Per què els atacs de destil·lació són un risc per a la seguretat nacional?

Els models destil·lats il·lícitament manquen dels sistemes de seguretat que les empreses nord-americanes com Anthropic incorporen als seus sistemes. Aquests models sense protecció es poden desplegar per a operacions cibernètiques ofensives, campanyes de desinformació, vigilància massiva i fins i tot per donar suport al desenvolupament d'armes biològiques. Si els models destil·lats s'obren com a codi obert, les capacitats perilloses es propaguen més enllà del control de qualsevol govern, soscavant els controls d'exportació dissenyats per mantenir l'avantatge dels Estats Units en IA.

Com van accedir DeepSeek, Moonshot i MiniMax a Claude?

Els laboratoris van eludir les restriccions d'accés regionals d'Anthropic utilitzant serveis de proxy comercials que revenden l'accés a l'API de Claude a gran escala. Aquests serveis utilitzen arquitectures de "clúster d'hidra" amb xarxes expansives de comptes fraudulents distribuïts a través de l'API d'Anthropic i plataformes de núvol de tercers. Una xarxa de proxy va gestionar més de 20.000 comptes fraudulents simultàniament, barrejant el tràfic de destil·lació amb peticions legítimes per evitar la detecció.

Com respon Anthropic als atacs de destil·lació?

Anthropic està desplegant múltiples contramesures: classificadors de petjades conductuals per detectar patrons de destil·lació en el tràfic de l'API, intercanvi d'informació amb altres laboratoris d'IA i proveïdors de núvol, verificació de comptes reforçada i salvaguardes a nivell de model que redueixen l'eficàcia de la sortida per a la destil·lació il·lícita sense degradar el servei per als usuaris legítims. Anthropic també demana respostes coordinades de la indústria i la política.

Què va extreure específicament DeepSeek de Claude?

DeepSeek es va dirigir a les capacitats de raonament de Claude, tasques de qualificació basades en rúbriques (fent que Claude funcionés com a model de recompensa per a l'aprenentatge per reforç), i alternatives segures a la censura per a consultes políticament sensibles. Van utilitzar tècniques que demanaven a Claude que articulés el seu raonament intern pas a pas, generant dades d'entrenament de "cadena de pensament" a gran escala. Anthropic va rastrejar aquests comptes fins a investigadors específics de DeepSeek.

Anthropic exposa atacs de destil·lació per part de DeepSeek i MiniMax

Anthropic destapa campanyes de destil·lació a escala industrial

Anthropic ha publicat proves que tres laboratoris d'IA — DeepSeek, Moonshot AI i MiniMax — van dur a terme campanyes coordinades per extreure les capacitats de Claude mitjançant destil·lació il·lícita. Les campanyes van generar més de 16 milions d'intercanvis amb Claude a través d'aproximadament 24.000 comptes fraudulents, violant els termes de servei d'Anthropic i les restriccions d'accés regionals.

La destil·lació és una tècnica legítima en la qual un model més petit s'entrena a partir de les sortides d'un model més potent. Els laboratoris d'avantguarda destil·len regularment els seus propis models per crear versions més econòmiques. Però quan els competidors utilitzen la destil·lació sense autorització, adquireixen capacitats poderoses per una fracció del cost i el temps necessaris per al desenvolupament independent.

Els atacs es van dirigir a les característiques més diferenciades de Claude: raonament agent, ús d'eines i codificació — les mateixes capacitats que impulsen Claude Opus 4.6 i Claude Sonnet 4.6.

Escala i objectius de cada campanya

Laboratori	Intercanvis	Objectius principals
DeepSeek	150.000+	Raonament, qualificació de models de recompensa, solucions per a la censura
Moonshot AI	3,4 milions+	Raonament agent, ús d'eines, visió per computador
MiniMax	13 milions+	Codificació agent, orquestració d'eines

DeepSeek va utilitzar una tècnica notable: peticions que demanaven a Claude que articulés el seu raonament intern pas a pas, generant efectivament dades d'entrenament de "cadena de pensament" a gran escala. També van utilitzar Claude per generar alternatives segures a la censura per a consultes políticament sensibles — probablement per entrenar els seus propis models per desviar les converses de temes censurats. Anthropic va rastrejar aquests comptes fins a investigadors específics del laboratori.

Moonshot AI (models Kimi) va emprar centenars de comptes fraudulents a través de múltiples vies d'accés. En una fase posterior, Moonshot va passar a un enfocament més dirigit, intentant extreure i reconstruir les traces de raonament de Claude.

MiniMax va dur a terme la campanya més gran amb més de 13 milions d'intercanvis. Anthropic va detectar aquesta campanya mentre encara estava activa — abans que MiniMax llancés el model que estava entrenant. Quan Anthropic va llançar un nou model durant la campanya activa, MiniMax va pivotar en 24 hores, redirigint gairebé la meitat del seu tràfic per capturar les últimes capacitats.

Com els destil·ladors eludeixen les restriccions d'accés

Anthropic no ofereix accés comercial a Claude a la Xina per raons de seguretat nacional. Els laboratoris van eludir aquesta restricció mitjançant serveis de proxy comercials que revenden l'accés a models d'avantguarda a gran escala.

Aquests serveis utilitzen el que Anthropic anomena arquitectures de "clúster d'hidra": xarxes expansives de comptes fraudulents que distribueixen el tràfic a través de l'API i plataformes de núvol de tercers. Quan un compte és bloquejat, un de nou el reemplaça. Una xarxa de proxy va gestionar més de 20.000 comptes fraudulents simultàniament, barrejant el tràfic de destil·lació amb peticions de clients no relacionades per dificultar la detecció.

El que distingeix la destil·lació de l'ús normal és el patró. Una sola petició pot semblar benigna, però quan arriben variacions desenes de milers de vegades a través de centenars de comptes coordinats, tots dirigits a la mateixa capacitat específica, el patró es fa evident.

Implicacions per a la seguretat nacional

Els models destil·lats il·lícitament manquen dels sistemes de seguretat que les empreses nord-americanes incorporen als sistemes d'avantguarda. Aquests sistemes de seguretat impedeixen que la IA s'utilitzi per desenvolupar armes biològiques, dur a terme operacions cibernètiques ofensives o permetre la vigilància massiva.

És poc probable que els models construïts mitjançant destil·lació il·lícita conservin aquestes proteccions. Els laboratoris estrangers poden alimentar capacitats desprotegides en sistemes militars, d'intel·ligència i de vigilància. Si els models destil·lats s'obren com a codi obert, les capacitats perilloses es propaguen lliurement més enllà del control de qualsevol govern.

Els atacs de destil·lació també soscaven els controls d'exportació dels EUA. Sense visibilitat sobre aquests atacs, els avenços aparentment ràpids d'aquests laboratoris es poden interpretar incorrectament com a prova que els controls d'exportació són ineficaces. En realitat, els avenços depenen de capacitats extretes de models americans, i executar l'extracció a gran escala requereix els xips avançats que els controls d'exportació estan dissenyats per restringir.

Contramesures d'Anthropic

Anthropic està desplegant múltiples defenses contra els atacs de destil·lació:

Classificadors de detecció: Sistemes de petjades conductuals que identifiquen patrons de destil·lació en el tràfic de l'API, inclosa l'obtenció de cadenes de pensament utilitzada per construir dades d'entrenament de raonament
Intercanvi d'intel·ligència: Indicadors tècnics compartits amb altres laboratoris d'IA, proveïdors de núvol i autoritats pertinents per a una visió holística del panorama de la destil·lació
Controls d'accés: Verificació reforçada per a comptes educatius, programes de recerca en seguretat i organitzacions emergents — les vies més comunament explotades
Salvaguardes a nivell de model: Contramesures a nivell de producte, API i model dissenyades per reduir l'eficàcia de la sortida per a la destil·lació il·lícita sense degradar l'ús legítim

Anthropic també ha connectat aquests descobriments amb el seu suport anterior a les capacitats de Seguretat del Codi de Claude per als defensors, part d'una estratègia més àmplia per garantir que les capacitats d'IA d'avantguarda romanguin protegides.

Es necessita una resposta de tota la indústria

Anthropic subratlla que cap empresa per si sola pot resoldre els atacs de destil·lació. Les campanyes exploten serveis de proxy comercials, plataformes de núvol de tercers i llacunes en la verificació de comptes que abasten tot l'ecosistema de la IA.

La creixent intensitat i sofisticació d'aquestes campanyes redueix el marge de temps per actuar. Anthropic ha observat que els destil·ladors s'adapten ràpidament: quan es llancen nous models, els esforços d'extracció canvien de rumb en qüestió d'hores. Quan es bloquegen comptes, les xarxes de proxy els reemplacen immediatament a través d'arquitectures de clúster d'hidra sense un únic punt de fallada.

Per abordar l'amenaça cal una acció coordinada entre empreses d'IA, proveïdors de núvol i responsables polítics. Anthropic va publicar els seus descobriments per posar les proves a disposició de tothom amb interès a protegir les capacitats d'IA d'avantguarda de l'extracció no autoritzada. L'empresa demana estàndards de verificació de comptes per a tota la indústria, marcs compartits d'intel·ligència d'amenaces i suport polític per a l'aplicació contra la destil·lació il·lícita a gran escala.