Cosa sono gli attacchi di distillazione AI?

Gli attacchi di distillazione AI implicano l'addestramento di un modello meno capace sugli output di uno più potente senza autorizzazione. I concorrenti generano enormi volumi di prompt attentamente elaborati per estrarre capacità specifiche da un modello di frontiera, quindi utilizzano le risposte per addestrare i propri sistemi. Anthropic ha identificato oltre 16 milioni di scambi illeciti su circa 24.000 account fraudolenti utilizzati da DeepSeek, Moonshot e MiniMax per estrarre le capacità di Claude.

Quali aziende hanno distillato le capacità di Claude?

Anthropic ha identificato tre laboratori AI cinesi che conducevano campagne di distillazione su scala industriale: DeepSeek (oltre 150.000 scambi mirati al ragionamento e alle soluzioni per la censura), Moonshot AI (oltre 3,4 milioni di scambi mirati al ragionamento agentico e all'uso di strumenti) e MiniMax (oltre 13 milioni di scambi mirati alla codifica agentica e all'orchestrazione di strumenti).

Perché gli attacchi di distillazione sono un rischio per la sicurezza nazionale?

I modelli distillati illecitamente sono privi delle salvaguardie di sicurezza che aziende statunitensi come Anthropic integrano nei loro sistemi. Questi modelli non protetti possono essere impiegati per operazioni informatiche offensive, campagne di disinformazione, sorveglianza di massa e persino per supportare lo sviluppo di armi biologiche. Se i modelli distillati vengono rilasciati open-source, capacità pericolose si diffondono oltre il controllo di qualsiasi singolo governo, minando i controlli sulle esportazioni progettati per mantenere il vantaggio AI dell'America.

Come hanno fatto DeepSeek, Moonshot e MiniMax ad accedere a Claude?

I laboratori hanno aggirato le restrizioni di accesso regionali di Anthropic utilizzando servizi proxy commerciali che rivendono l'accesso all'API di Claude su vasta scala. Questi servizi gestiscono architetture "a grappolo di idra" con reti estese di account fraudolenti distribuiti sull'API di Anthropic e su piattaforme cloud di terze parti. Una rete proxy ha gestito simultaneamente più di 20.000 account fraudolenti, mescolando il traffico di distillazione con richieste legittime per evitare il rilevamento.

Come sta rispondendo Anthropic agli attacchi di distillazione?

Anthropic sta adottando molteplici contromisure: classificatori di impronte comportamentali per rilevare schemi di distillazione nel traffico API, condivisione di informazioni con altri laboratori AI e fornitori di cloud, rafforzamento della verifica degli account e salvaguardie a livello di modello che riducono l'efficacia dell'output per la distillazione illecita senza degradare il servizio per gli utenti legittimi. Anthropic chiede anche risposte coordinate a livello industriale e politico.

Cosa ha estratto DeepSeek specificamente da Claude?

DeepSeek ha mirato alle capacità di ragionamento di Claude, ai compiti di valutazione basati su rubriche (facendo funzionare Claude come modello di ricompensa per l'apprendimento per rinforzo) e ad alternative sicure per la censura a query politicamente sensibili. Hanno utilizzato tecniche che chiedevano a Claude di articolare il suo ragionamento interno passo dopo passo, generando dati di addestramento "chain-of-thought" su vasta scala. Anthropic ha ricondotto questi account a ricercatori specifici di DeepSeek.

Anthropic espone gli attacchi di distillazione da parte di DeepSeek e MiniMax

Anthropic scopre campagne di distillazione su scala industriale

Anthropic ha pubblicato prove che tre laboratori AI — DeepSeek, Moonshot AI e MiniMax — hanno condotto campagne coordinate per estrarre le capacità di Claude attraverso la distillazione illecita. Le campagne hanno generato oltre 16 milioni di scambi con Claude attraverso circa 24.000 account fraudolenti, violando i termini di servizio di Anthropic e le restrizioni di accesso regionali.

La distillazione è una tecnica legittima in cui un modello più piccolo viene addestrato sugli output di uno più potente. I laboratori di frontiera distillano regolarmente i propri modelli per creare versioni più economiche. Ma quando i concorrenti utilizzano la distillazione senza autorizzazione, acquisiscono potenti capacità a una frazione del costo e del tempo necessari per lo sviluppo indipendente.

Gli attacchi hanno preso di mira le funzionalità più differenziate di Claude: ragionamento agentico, uso di strumenti e codifica — le stesse capacità che alimentano Claude Opus 4.6 e Claude Sonnet 4.6.

Scala e obiettivi di ciascuna campagna

Laboratorio	Scambi	Obiettivi Primari
DeepSeek	150.000+	Ragionamento, valutazione modello di ricompensa, soluzioni censura
Moonshot AI	3,4 milioni+	Ragionamento agentico, uso di strumenti, visione artificiale
MiniMax	13 milioni+	Codifica agentica, orchestrazione di strumenti

DeepSeek ha utilizzato una tecnica degna di nota: prompt che chiedevano a Claude di articolare il suo ragionamento interno passo dopo passo, generando efficacemente dati di addestramento "chain-of-thought" su vasta scala. Hanno anche usato Claude per generare alternative sicure per la censura a query politicamente sensibili — probabilmente per addestrare i propri modelli a deviare le conversazioni da argomenti censurati. Anthropic ha ricondotto questi account a ricercatori specifici del laboratorio.

Moonshot AI (modelli Kimi) ha impiegato centinaia di account fraudolenti attraverso molteplici percorsi di accesso. In una fase successiva, Moonshot ha adottato un approccio più mirato, tentando di estrarre e ricostruire le tracce di ragionamento di Claude.

MiniMax ha condotto la campagna più grande con oltre 13 milioni di scambi. Anthropic ha rilevato questa campagna mentre era ancora attiva — prima che MiniMax rilasciasse il modello che stava addestrando. Quando Anthropic ha rilasciato un nuovo modello durante la campagna attiva, MiniMax ha virato entro 24 ore, reindirizzando quasi la metà del proprio traffico per catturare le ultime capacità.

Come i distillatori aggirano le restrizioni di accesso

Anthropic non offre accesso commerciale a Claude in Cina per motivi di sicurezza nazionale. I laboratori hanno aggirato questa restrizione tramite servizi proxy commerciali che rivendono l'accesso ai modelli di frontiera su vasta scala.

Questi servizi gestiscono quelle che Anthropic definisce architetture "a grappolo di idra": reti estese di account fraudolenti che distribuiscono il traffico sull'API e sulle piattaforme cloud di terze parti. Quando un account viene bloccato, uno nuovo lo sostituisce. Una rete proxy ha gestito simultaneamente più di 20.000 account fraudolenti, mescolando il traffico di distillazione con richieste di clienti non correlate per rendere più difficile il rilevamento.

Ciò che distingue la distillazione dall'uso normale è il pattern. Un singolo prompt può sembrare innocuo, ma quando le variazioni arrivano decine di migliaia di volte attraverso centinaia di account coordinati, tutti mirati alla stessa ristretta capacità, il pattern diventa chiaro.

Implicazioni per la sicurezza nazionale

I modelli distillati illecitamente sono privi delle salvaguardie di sicurezza che le aziende statunitensi integrano nei sistemi di frontiera. Queste salvaguardie impediscono che l'AI venga utilizzata per sviluppare armi biologiche, condurre operazioni informatiche offensive o abilitare la sorveglianza di massa.

È improbabile che i modelli costruiti tramite distillazione illecita mantengano tali protezioni. Laboratori stranieri possono immettere capacità non protette in sistemi militari, di intelligence e di sorveglianza. Se i modelli distillati vengono rilasciati open-source, capacità pericolose si diffondono liberamente oltre il controllo di qualsiasi governo.

Gli attacchi di distillazione minano anche i controlli sulle esportazioni statunitensi. Senza visibilità su questi attacchi, i progressi apparentemente rapidi di questi laboratori possono essere erroneamente interpretati come prova che i controlli sulle esportazioni sono inefficaci. In realtà, i progressi dipendono da capacità estratte da modelli americani, e l'esecuzione dell'estrazione su vasta scala richiede i chip avanzati che i controlli sulle esportazioni sono progettati per limitare.

Le contromisure di Anthropic

Anthropic sta adottando molteplici difese contro gli attacchi di distillazione:

Classificatori di rilevamento: Sistemi di impronte comportamentali che identificano i pattern di distillazione nel traffico API, inclusa l'elicitazione "chain-of-thought" utilizzata per costruire dati di addestramento per il ragionamento
Condivisione di intelligence: Indicatori tecnici condivisi con altri laboratori AI, fornitori di cloud e autorità competenti per un quadro olistico del panorama della distillazione
Controlli di accesso: Verifica rafforzata per account educativi, programmi di ricerca sulla sicurezza e organizzazioni startup — le vie più comunemente sfruttate
Salvaguardie a livello di modello: Contromisure a livello di prodotto, API e modello progettate per ridurre l'efficacia dell'output per la distillazione illecita senza degradare l'uso legittimo

Anthropic ha anche collegato questi risultati al suo precedente supporto per le capacità di Sicurezza del codice di Claude per i difensori, parte di una strategia più ampia per garantire che le capacità AI di frontiera rimangano protette.

Necessaria una risposta a livello industriale

Anthropic sottolinea che nessuna singola azienda può risolvere gli attacchi di distillazione da sola. Le campagne sfruttano servizi proxy commerciali, piattaforme cloud di terze parti e lacune nella verifica degli account che abbracciano l'intero ecosistema AI.

La crescente intensità e sofisticazione di queste campagne restringono la finestra di azione. Anthropic ha osservato che i distillatori si adattano rapidamente: quando vengono rilasciati nuovi modelli, gli sforzi di estrazione virano entro poche ore. Quando gli account vengono bloccati, le reti proxy li sostituiscono immediatamente tramite architetture "a grappolo di idra" senza un singolo punto di fallimento.

Affrontare la minaccia richiede un'azione coordinata tra aziende AI, fornitori di cloud e responsabili politici. Anthropic ha pubblicato i suoi risultati per rendere le prove disponibili a tutti coloro che hanno interesse a proteggere le capacità AI di frontiera dall'estrazione non autorizzata. L'azienda chiede standard a livello industriale sulla verifica degli account, framework condivisi di intelligence sulle minacce e supporto politico per l'applicazione delle normative contro la distillazione illecita su vasta scala.