Anthropic destapa campanyes de destil·lació a escala industrial
Anthropic ha publicat proves que tres laboratoris d'IA — DeepSeek, Moonshot AI i MiniMax — van dur a terme campanyes coordinades per extreure les capacitats de Claude mitjançant destil·lació il·lícita. Les campanyes van generar més de 16 milions d'intercanvis amb Claude a través d'aproximadament 24.000 comptes fraudulents, violant els termes de servei d'Anthropic i les restriccions d'accés regionals.
La destil·lació és una tècnica legítima en la qual un model més petit s'entrena a partir de les sortides d'un model més potent. Els laboratoris d'avantguarda destil·len regularment els seus propis models per crear versions més econòmiques. Però quan els competidors utilitzen la destil·lació sense autorització, adquireixen capacitats poderoses per una fracció del cost i el temps necessaris per al desenvolupament independent.
Els atacs es van dirigir a les característiques més diferenciades de Claude: raonament agent, ús d'eines i codificació — les mateixes capacitats que impulsen Claude Opus 4.6 i Claude Sonnet 4.6.
Escala i objectius de cada campanya
| Laboratori | Intercanvis | Objectius principals |
|---|---|---|
| DeepSeek | 150.000+ | Raonament, qualificació de models de recompensa, solucions per a la censura |
| Moonshot AI | 3,4 milions+ | Raonament agent, ús d'eines, visió per computador |
| MiniMax | 13 milions+ | Codificació agent, orquestració d'eines |
DeepSeek va utilitzar una tècnica notable: peticions que demanaven a Claude que articulés el seu raonament intern pas a pas, generant efectivament dades d'entrenament de "cadena de pensament" a gran escala. També van utilitzar Claude per generar alternatives segures a la censura per a consultes políticament sensibles — probablement per entrenar els seus propis models per desviar les converses de temes censurats. Anthropic va rastrejar aquests comptes fins a investigadors específics del laboratori.
Moonshot AI (models Kimi) va emprar centenars de comptes fraudulents a través de múltiples vies d'accés. En una fase posterior, Moonshot va passar a un enfocament més dirigit, intentant extreure i reconstruir les traces de raonament de Claude.
MiniMax va dur a terme la campanya més gran amb més de 13 milions d'intercanvis. Anthropic va detectar aquesta campanya mentre encara estava activa — abans que MiniMax llancés el model que estava entrenant. Quan Anthropic va llançar un nou model durant la campanya activa, MiniMax va pivotar en 24 hores, redirigint gairebé la meitat del seu tràfic per capturar les últimes capacitats.
Com els destil·ladors eludeixen les restriccions d'accés
Anthropic no ofereix accés comercial a Claude a la Xina per raons de seguretat nacional. Els laboratoris van eludir aquesta restricció mitjançant serveis de proxy comercials que revenden l'accés a models d'avantguarda a gran escala.
Aquests serveis utilitzen el que Anthropic anomena arquitectures de "clúster d'hidra": xarxes expansives de comptes fraudulents que distribueixen el tràfic a través de l'API i plataformes de núvol de tercers. Quan un compte és bloquejat, un de nou el reemplaça. Una xarxa de proxy va gestionar més de 20.000 comptes fraudulents simultàniament, barrejant el tràfic de destil·lació amb peticions de clients no relacionades per dificultar la detecció.
El que distingeix la destil·lació de l'ús normal és el patró. Una sola petició pot semblar benigna, però quan arriben variacions desenes de milers de vegades a través de centenars de comptes coordinats, tots dirigits a la mateixa capacitat específica, el patró es fa evident.
Implicacions per a la seguretat nacional
Els models destil·lats il·lícitament manquen dels sistemes de seguretat que les empreses nord-americanes incorporen als sistemes d'avantguarda. Aquests sistemes de seguretat impedeixen que la IA s'utilitzi per desenvolupar armes biològiques, dur a terme operacions cibernètiques ofensives o permetre la vigilància massiva.
És poc probable que els models construïts mitjançant destil·lació il·lícita conservin aquestes proteccions. Els laboratoris estrangers poden alimentar capacitats desprotegides en sistemes militars, d'intel·ligència i de vigilància. Si els models destil·lats s'obren com a codi obert, les capacitats perilloses es propaguen lliurement més enllà del control de qualsevol govern.
Els atacs de destil·lació també soscaven els controls d'exportació dels EUA. Sense visibilitat sobre aquests atacs, els avenços aparentment ràpids d'aquests laboratoris es poden interpretar incorrectament com a prova que els controls d'exportació són ineficaces. En realitat, els avenços depenen de capacitats extretes de models americans, i executar l'extracció a gran escala requereix els xips avançats que els controls d'exportació estan dissenyats per restringir.
Contramesures d'Anthropic
Anthropic està desplegant múltiples defenses contra els atacs de destil·lació:
- Classificadors de detecció: Sistemes de petjades conductuals que identifiquen patrons de destil·lació en el tràfic de l'API, inclosa l'obtenció de cadenes de pensament utilitzada per construir dades d'entrenament de raonament
- Intercanvi d'intel·ligència: Indicadors tècnics compartits amb altres laboratoris d'IA, proveïdors de núvol i autoritats pertinents per a una visió holística del panorama de la destil·lació
- Controls d'accés: Verificació reforçada per a comptes educatius, programes de recerca en seguretat i organitzacions emergents — les vies més comunament explotades
- Salvaguardes a nivell de model: Contramesures a nivell de producte, API i model dissenyades per reduir l'eficàcia de la sortida per a la destil·lació il·lícita sense degradar l'ús legítim
Anthropic també ha connectat aquests descobriments amb el seu suport anterior a les capacitats de Seguretat del Codi de Claude per als defensors, part d'una estratègia més àmplia per garantir que les capacitats d'IA d'avantguarda romanguin protegides.
Es necessita una resposta de tota la indústria
Anthropic subratlla que cap empresa per si sola pot resoldre els atacs de destil·lació. Les campanyes exploten serveis de proxy comercials, plataformes de núvol de tercers i llacunes en la verificació de comptes que abasten tot l'ecosistema de la IA.
La creixent intensitat i sofisticació d'aquestes campanyes redueix el marge de temps per actuar. Anthropic ha observat que els destil·ladors s'adapten ràpidament: quan es llancen nous models, els esforços d'extracció canvien de rumb en qüestió d'hores. Quan es bloquegen comptes, les xarxes de proxy els reemplacen immediatament a través d'arquitectures de clúster d'hidra sense un únic punt de fallada.
Per abordar l'amenaça cal una acció coordinada entre empreses d'IA, proveïdors de núvol i responsables polítics. Anthropic va publicar els seus descobriments per posar les proves a disposició de tothom amb interès a protegir les capacitats d'IA d'avantguarda de l'extracció no autoritzada. L'empresa demana estàndards de verificació de comptes per a tota la indústria, marcs compartits d'intel·ligència d'amenaces i suport polític per a l'aplicació contra la destil·lació il·lícita a gran escala.
Preguntes freqüents
Què són els atacs de destil·lació d'IA?
Quines empreses van destil·lar les capacitats de Claude?
Per què els atacs de destil·lació són un risc per a la seguretat nacional?
Com van accedir DeepSeek, Moonshot i MiniMax a Claude?
Com respon Anthropic als atacs de destil·lació?
Què va extreure específicament DeepSeek de Claude?
Manteniu-vos al dia
Rebeu les últimes notícies d'IA al correu.
