Anthropic scopre campagne di distillazione su scala industriale
Anthropic ha pubblicato prove che tre laboratori AI — DeepSeek, Moonshot AI e MiniMax — hanno condotto campagne coordinate per estrarre le capacità di Claude attraverso la distillazione illecita. Le campagne hanno generato oltre 16 milioni di scambi con Claude attraverso circa 24.000 account fraudolenti, violando i termini di servizio di Anthropic e le restrizioni di accesso regionali.
La distillazione è una tecnica legittima in cui un modello più piccolo viene addestrato sugli output di uno più potente. I laboratori di frontiera distillano regolarmente i propri modelli per creare versioni più economiche. Ma quando i concorrenti utilizzano la distillazione senza autorizzazione, acquisiscono potenti capacità a una frazione del costo e del tempo necessari per lo sviluppo indipendente.
Gli attacchi hanno preso di mira le funzionalità più differenziate di Claude: ragionamento agentico, uso di strumenti e codifica — le stesse capacità che alimentano Claude Opus 4.6 e Claude Sonnet 4.6.
Scala e obiettivi di ciascuna campagna
| Laboratorio | Scambi | Obiettivi Primari |
|---|---|---|
| DeepSeek | 150.000+ | Ragionamento, valutazione modello di ricompensa, soluzioni censura |
| Moonshot AI | 3,4 milioni+ | Ragionamento agentico, uso di strumenti, visione artificiale |
| MiniMax | 13 milioni+ | Codifica agentica, orchestrazione di strumenti |
DeepSeek ha utilizzato una tecnica degna di nota: prompt che chiedevano a Claude di articolare il suo ragionamento interno passo dopo passo, generando efficacemente dati di addestramento "chain-of-thought" su vasta scala. Hanno anche usato Claude per generare alternative sicure per la censura a query politicamente sensibili — probabilmente per addestrare i propri modelli a deviare le conversazioni da argomenti censurati. Anthropic ha ricondotto questi account a ricercatori specifici del laboratorio.
Moonshot AI (modelli Kimi) ha impiegato centinaia di account fraudolenti attraverso molteplici percorsi di accesso. In una fase successiva, Moonshot ha adottato un approccio più mirato, tentando di estrarre e ricostruire le tracce di ragionamento di Claude.
MiniMax ha condotto la campagna più grande con oltre 13 milioni di scambi. Anthropic ha rilevato questa campagna mentre era ancora attiva — prima che MiniMax rilasciasse il modello che stava addestrando. Quando Anthropic ha rilasciato un nuovo modello durante la campagna attiva, MiniMax ha virato entro 24 ore, reindirizzando quasi la metà del proprio traffico per catturare le ultime capacità.
Come i distillatori aggirano le restrizioni di accesso
Anthropic non offre accesso commerciale a Claude in Cina per motivi di sicurezza nazionale. I laboratori hanno aggirato questa restrizione tramite servizi proxy commerciali che rivendono l'accesso ai modelli di frontiera su vasta scala.
Questi servizi gestiscono quelle che Anthropic definisce architetture "a grappolo di idra": reti estese di account fraudolenti che distribuiscono il traffico sull'API e sulle piattaforme cloud di terze parti. Quando un account viene bloccato, uno nuovo lo sostituisce. Una rete proxy ha gestito simultaneamente più di 20.000 account fraudolenti, mescolando il traffico di distillazione con richieste di clienti non correlate per rendere più difficile il rilevamento.
Ciò che distingue la distillazione dall'uso normale è il pattern. Un singolo prompt può sembrare innocuo, ma quando le variazioni arrivano decine di migliaia di volte attraverso centinaia di account coordinati, tutti mirati alla stessa ristretta capacità, il pattern diventa chiaro.
Implicazioni per la sicurezza nazionale
I modelli distillati illecitamente sono privi delle salvaguardie di sicurezza che le aziende statunitensi integrano nei sistemi di frontiera. Queste salvaguardie impediscono che l'AI venga utilizzata per sviluppare armi biologiche, condurre operazioni informatiche offensive o abilitare la sorveglianza di massa.
È improbabile che i modelli costruiti tramite distillazione illecita mantengano tali protezioni. Laboratori stranieri possono immettere capacità non protette in sistemi militari, di intelligence e di sorveglianza. Se i modelli distillati vengono rilasciati open-source, capacità pericolose si diffondono liberamente oltre il controllo di qualsiasi governo.
Gli attacchi di distillazione minano anche i controlli sulle esportazioni statunitensi. Senza visibilità su questi attacchi, i progressi apparentemente rapidi di questi laboratori possono essere erroneamente interpretati come prova che i controlli sulle esportazioni sono inefficaci. In realtà, i progressi dipendono da capacità estratte da modelli americani, e l'esecuzione dell'estrazione su vasta scala richiede i chip avanzati che i controlli sulle esportazioni sono progettati per limitare.
Le contromisure di Anthropic
Anthropic sta adottando molteplici difese contro gli attacchi di distillazione:
- Classificatori di rilevamento: Sistemi di impronte comportamentali che identificano i pattern di distillazione nel traffico API, inclusa l'elicitazione "chain-of-thought" utilizzata per costruire dati di addestramento per il ragionamento
- Condivisione di intelligence: Indicatori tecnici condivisi con altri laboratori AI, fornitori di cloud e autorità competenti per un quadro olistico del panorama della distillazione
- Controlli di accesso: Verifica rafforzata per account educativi, programmi di ricerca sulla sicurezza e organizzazioni startup — le vie più comunemente sfruttate
- Salvaguardie a livello di modello: Contromisure a livello di prodotto, API e modello progettate per ridurre l'efficacia dell'output per la distillazione illecita senza degradare l'uso legittimo
Anthropic ha anche collegato questi risultati al suo precedente supporto per le capacità di Sicurezza del codice di Claude per i difensori, parte di una strategia più ampia per garantire che le capacità AI di frontiera rimangano protette.
Necessaria una risposta a livello industriale
Anthropic sottolinea che nessuna singola azienda può risolvere gli attacchi di distillazione da sola. Le campagne sfruttano servizi proxy commerciali, piattaforme cloud di terze parti e lacune nella verifica degli account che abbracciano l'intero ecosistema AI.
La crescente intensità e sofisticazione di queste campagne restringono la finestra di azione. Anthropic ha osservato che i distillatori si adattano rapidamente: quando vengono rilasciati nuovi modelli, gli sforzi di estrazione virano entro poche ore. Quando gli account vengono bloccati, le reti proxy li sostituiscono immediatamente tramite architetture "a grappolo di idra" senza un singolo punto di fallimento.
Affrontare la minaccia richiede un'azione coordinata tra aziende AI, fornitori di cloud e responsabili politici. Anthropic ha pubblicato i suoi risultati per rendere le prove disponibili a tutti coloro che hanno interesse a proteggere le capacità AI di frontiera dall'estrazione non autorizzata. L'azienda chiede standard a livello industriale sulla verifica degli account, framework condivisi di intelligence sulle minacce e supporto politico per l'applicazione delle normative contro la distillazione illecita su vasta scala.
Domande Frequenti
Cosa sono gli attacchi di distillazione AI?
Quali aziende hanno distillato le capacità di Claude?
Perché gli attacchi di distillazione sono un rischio per la sicurezza nazionale?
Come hanno fatto DeepSeek, Moonshot e MiniMax ad accedere a Claude?
Come sta rispondendo Anthropic agli attacchi di distillazione?
Cosa ha estratto DeepSeek specificamente da Claude?
Resta aggiornato
Ricevi le ultime notizie sull'IA nella tua casella.
