O que são ataques de destilação de IA?

Ataques de destilação de IA envolvem o treinamento de um modelo menos capaz com as saídas de um modelo mais forte sem autorização. Concorrentes geram volumes massivos de prompts cuidadosamente elaborados para extrair capacidades específicas de um modelo de fronteira, e então usam as respostas para treinar seus próprios sistemas. A Anthropic identificou mais de 16 milhões de trocas ilícitas através de aproximadamente 24.000 contas fraudulentas usadas por DeepSeek, Moonshot e MiniMax para extrair as capacidades do Claude.

Quais empresas destilaram as capacidades do Claude?

A Anthropic identificou três laboratórios chineses de IA conduzindo campanhas de destilação em escala industrial: DeepSeek (mais de 150.000 trocas visando raciocínio e soluções alternativas de censura), Moonshot AI (mais de 3,4 milhões de trocas visando raciocínio agêntico e uso de ferramentas) e MiniMax (mais de 13 milhões de trocas visando codificação agêntica e orquestração de ferramentas).

Por que os ataques de destilação são um risco à segurança nacional?

Modelos destilados ilicitamente carecem das salvaguardas de segurança que empresas dos EUA como a Anthropic incorporam em seus sistemas. Esses modelos desprotegidos podem ser implantados para operações cibernéticas ofensivas, campanhas de desinformação, vigilância em massa e até mesmo apoio ao desenvolvimento de armas biológicas. Se modelos destilados forem de código aberto, capacidades perigosas se espalham além do controle de qualquer governo, minando os controles de exportação projetados para manter a vantagem de IA dos Estados Unidos.

Como DeepSeek, Moonshot e MiniMax acessaram o Claude?

Os laboratórios contornaram as restrições de acesso regional da Anthropic usando serviços de proxy comerciais que revendem o acesso à API do Claude em larga escala. Esses serviços executam arquiteturas de 'cluster hidra' com extensas redes de contas fraudulentas distribuídas pela API da Anthropic e plataformas de nuvem de terceiros. Uma rede de proxy gerenciou mais de 20.000 contas fraudulentas simultaneamente, misturando tráfego de destilação com solicitações legítimas para evitar a detecção.

Como a Anthropic está respondendo aos ataques de destilação?

A Anthropic está implementando múltiplas contramedidas: classificadores de impressão digital comportamental para detectar padrões de destilação no tráfego da API, compartilhamento de inteligência com outros laboratórios de IA e provedores de nuvem, verificação de contas reforçada e salvaguardas no nível do modelo que reduzem a eficácia da saída para destilação ilícita sem degradar o serviço para usuários legítimos. A Anthropic também está pedindo respostas coordenadas da indústria e da política.

O que DeepSeek extraiu especificamente do Claude?

A DeepSeek visou as capacidades de raciocínio do Claude, tarefas de avaliação baseadas em rubricas (fazendo o Claude funcionar como um modelo de recompensa para aprendizado por reforço) e alternativas seguras à censura para consultas politicamente sensíveis. Eles usaram técnicas que pediam ao Claude para articular seu raciocínio interno passo a passo, gerando dados de treinamento de 'cadeia de pensamento' em escala. A Anthropic rastreou essas contas até pesquisadores específicos na DeepSeek.

Anthropic Expõe Ataques de Destilação por DeepSeek e MiniMax

Anthropic Desvenda Campanhas de Destilação em Escala Industrial

A Anthropic publicou evidências de que três laboratórios de IA — DeepSeek, Moonshot AI e MiniMax — realizaram campanhas coordenadas para extrair as capacidades do Claude por meio de destilação ilícita. As campanhas geraram mais de 16 milhões de trocas com o Claude através de aproximadamente 24.000 contas fraudulentas, violando os termos de serviço da Anthropic e as restrições de acesso regional.

A destilação é uma técnica legítima onde um modelo menor é treinado com as saídas de um modelo mais forte. Laboratórios de fronteira destilam regularmente seus próprios modelos para criar versões mais baratas. Mas quando concorrentes usam a destilação sem autorização, eles adquirem capacidades poderosas por uma fração do custo e do tempo necessários para o desenvolvimento independente.

Os ataques visaram os recursos mais diferenciados do Claude: raciocínio agêntico, uso de ferramentas e codificação — as mesmas capacidades que impulsionam Claude Opus 4.6 e Claude Sonnet 4.6.

Escala e Alvos de Cada Campanha

Laboratório	Trocas	Alvos Primários
DeepSeek	150.000+	Raciocínio, avaliação por modelo de recompensa, soluções de censura
Moonshot AI	3.4 milhões+	Raciocínio agêntico, uso de ferramentas, visão computacional
MiniMax	13 milhões+	Codificação agêntica, orquestração de ferramentas

A DeepSeek utilizou uma técnica notável: prompts que pediam ao Claude para articular seu raciocínio interno passo a passo, gerando efetivamente dados de treinamento de 'cadeia de pensamento' em escala. Eles também usaram o Claude para gerar alternativas seguras à censura para consultas politicamente sensíveis — provavelmente para treinar seus próprios modelos a desviar conversas de tópicos censurados. A Anthropic rastreou essas contas até pesquisadores específicos do laboratório.

A Moonshot AI (modelos Kimi) empregou centenas de contas fraudulentas através de múltiplos caminhos de acesso. Em uma fase posterior, a Moonshot mudou para uma abordagem mais direcionada, tentando extrair e reconstruir os rastros de raciocínio do Claude.

A MiniMax executou a maior campanha com mais de 13 milhões de trocas. A Anthropic detectou esta campanha enquanto ainda estava ativa — antes de a MiniMax lançar o modelo que estava treinando. Quando a Anthropic lançou um novo modelo durante a campanha ativa, a MiniMax se adaptou em 24 horas, redirecionando quase metade de seu tráfego para capturar as capacidades mais recentes.

Como os Destiladores Contornam as Restrições de Acesso

A Anthropic não oferece acesso comercial ao Claude na China por razões de segurança nacional. Os laboratórios contornaram isso por meio de serviços de proxy comerciais que revendem o acesso a modelos de fronteira em escala.

Esses serviços executam o que a Anthropic chama de arquiteturas de "cluster hidra": redes extensas de contas fraudulentas que distribuem tráfego pela API e plataformas de nuvem de terceiros. Quando uma conta é banida, uma nova a substitui. Uma rede de proxy gerenciou mais de 20.000 contas fraudulentas simultaneamente, misturando tráfego de destilação com solicitações de clientes não relacionadas para dificultar a detecção.

O que distingue a destilação do uso normal é o padrão. Um único prompt pode parecer benigno, mas quando variações chegam dezenas de milhares de vezes através de centenas de contas coordenadas, todas visando a mesma capacidade restrita, o padrão se torna claro.

Implicações para a Segurança Nacional

Modelos destilados ilicitamente carecem das salvaguardas de segurança que as empresas americanas incorporam em sistemas de fronteira. Essas salvaguardas impedem que a IA seja usada para desenvolver armas biológicas, realizar operações cibernéticas ofensivas ou permitir a vigilância em massa.

É improvável que modelos construídos por meio de destilação ilícita retenham essas proteções. Laboratórios estrangeiros podem alimentar capacidades desprotegidas em sistemas militares, de inteligência e de vigilância. Se modelos destilados forem de código aberto, capacidades perigosas se espalham livremente além do controle de qualquer governo.

Ataques de destilação também minam os controles de exportação dos EUA. Sem visibilidade desses ataques, os avanços aparentemente rápidos desses laboratórios podem ser interpretados incorretamente como evidência de que os controles de exportação são ineficazes. Na realidade, os avanços dependem de capacidades extraídas de modelos americanos, e a execução da extração em escala requer os chips avançados que os controles de exportação são projetados para restringir.

Contramedidas da Anthropic

A Anthropic está implementando múltiplas defesas contra ataques de destilação:

Classificadores de detecção: Sistemas de impressão digital comportamental que identificam padrões de destilação no tráfego da API, incluindo a elicitação de 'cadeia de pensamento' usada para construir dados de treinamento de raciocínio
Compartilhamento de inteligência: Indicadores técnicos compartilhados com outros laboratórios de IA, provedores de nuvem e autoridades relevantes para uma visão holística do cenário de destilação
Controles de acesso: Verificação reforçada para contas educacionais, programas de pesquisa de segurança e organizações startup — os caminhos mais comumente explorados
Salvaguardas no nível do modelo: Contramedidas de produto, API e no nível do modelo projetadas para reduzir a eficácia da saída para destilação ilícita sem degradar o uso legítimo

A Anthropic também conectou essas descobertas ao seu apoio anterior às capacidades de Segurança de Código do Claude para defensores, parte de uma estratégia mais ampla para garantir que as capacidades de IA de fronteira permaneçam protegidas.

Resposta Ampla da Indústria Necessária

A Anthropic enfatiza que nenhuma empresa sozinha pode resolver os ataques de destilação. As campanhas exploram serviços de proxy comerciais, plataformas de nuvem de terceiros e lacunas na verificação de contas que abrangem todo o ecossistema de IA.

A crescente intensidade e sofisticação dessas campanhas estreita a janela para agir. A Anthropic observou que os destiladores se adaptam rapidamente: quando novos modelos são lançados, os esforços de extração se voltam para eles em questão de horas. Quando contas são banidas, as redes de proxy as substituem imediatamente através de arquiteturas de 'cluster hidra' sem um único ponto de falha.

Abordar a ameaça requer ação coordenada entre empresas de IA, provedores de nuvem e formuladores de políticas. A Anthropic publicou suas descobertas para tornar a evidência disponível a todos os interessados em proteger as capacidades de IA de fronteira contra a extração não autorizada. A empresa está pedindo padrões em toda a indústria para verificação de contas, estruturas compartilhadas de inteligência de ameaças e apoio político para a aplicação da lei contra a destilação ilícita em escala.