Anthropic Desvenda Campanhas de Destilação em Escala Industrial
A Anthropic publicou evidências de que três laboratórios de IA — DeepSeek, Moonshot AI e MiniMax — realizaram campanhas coordenadas para extrair as capacidades do Claude por meio de destilação ilícita. As campanhas geraram mais de 16 milhões de trocas com o Claude através de aproximadamente 24.000 contas fraudulentas, violando os termos de serviço da Anthropic e as restrições de acesso regional.
A destilação é uma técnica legítima onde um modelo menor é treinado com as saídas de um modelo mais forte. Laboratórios de fronteira destilam regularmente seus próprios modelos para criar versões mais baratas. Mas quando concorrentes usam a destilação sem autorização, eles adquirem capacidades poderosas por uma fração do custo e do tempo necessários para o desenvolvimento independente.
Os ataques visaram os recursos mais diferenciados do Claude: raciocínio agêntico, uso de ferramentas e codificação — as mesmas capacidades que impulsionam Claude Opus 4.6 e Claude Sonnet 4.6.
Escala e Alvos de Cada Campanha
| Laboratório | Trocas | Alvos Primários |
|---|---|---|
| DeepSeek | 150.000+ | Raciocínio, avaliação por modelo de recompensa, soluções de censura |
| Moonshot AI | 3.4 milhões+ | Raciocínio agêntico, uso de ferramentas, visão computacional |
| MiniMax | 13 milhões+ | Codificação agêntica, orquestração de ferramentas |
A DeepSeek utilizou uma técnica notável: prompts que pediam ao Claude para articular seu raciocínio interno passo a passo, gerando efetivamente dados de treinamento de 'cadeia de pensamento' em escala. Eles também usaram o Claude para gerar alternativas seguras à censura para consultas politicamente sensíveis — provavelmente para treinar seus próprios modelos a desviar conversas de tópicos censurados. A Anthropic rastreou essas contas até pesquisadores específicos do laboratório.
A Moonshot AI (modelos Kimi) empregou centenas de contas fraudulentas através de múltiplos caminhos de acesso. Em uma fase posterior, a Moonshot mudou para uma abordagem mais direcionada, tentando extrair e reconstruir os rastros de raciocínio do Claude.
A MiniMax executou a maior campanha com mais de 13 milhões de trocas. A Anthropic detectou esta campanha enquanto ainda estava ativa — antes de a MiniMax lançar o modelo que estava treinando. Quando a Anthropic lançou um novo modelo durante a campanha ativa, a MiniMax se adaptou em 24 horas, redirecionando quase metade de seu tráfego para capturar as capacidades mais recentes.
Como os Destiladores Contornam as Restrições de Acesso
A Anthropic não oferece acesso comercial ao Claude na China por razões de segurança nacional. Os laboratórios contornaram isso por meio de serviços de proxy comerciais que revendem o acesso a modelos de fronteira em escala.
Esses serviços executam o que a Anthropic chama de arquiteturas de "cluster hidra": redes extensas de contas fraudulentas que distribuem tráfego pela API e plataformas de nuvem de terceiros. Quando uma conta é banida, uma nova a substitui. Uma rede de proxy gerenciou mais de 20.000 contas fraudulentas simultaneamente, misturando tráfego de destilação com solicitações de clientes não relacionadas para dificultar a detecção.
O que distingue a destilação do uso normal é o padrão. Um único prompt pode parecer benigno, mas quando variações chegam dezenas de milhares de vezes através de centenas de contas coordenadas, todas visando a mesma capacidade restrita, o padrão se torna claro.
Implicações para a Segurança Nacional
Modelos destilados ilicitamente carecem das salvaguardas de segurança que as empresas americanas incorporam em sistemas de fronteira. Essas salvaguardas impedem que a IA seja usada para desenvolver armas biológicas, realizar operações cibernéticas ofensivas ou permitir a vigilância em massa.
É improvável que modelos construídos por meio de destilação ilícita retenham essas proteções. Laboratórios estrangeiros podem alimentar capacidades desprotegidas em sistemas militares, de inteligência e de vigilância. Se modelos destilados forem de código aberto, capacidades perigosas se espalham livremente além do controle de qualquer governo.
Ataques de destilação também minam os controles de exportação dos EUA. Sem visibilidade desses ataques, os avanços aparentemente rápidos desses laboratórios podem ser interpretados incorretamente como evidência de que os controles de exportação são ineficazes. Na realidade, os avanços dependem de capacidades extraídas de modelos americanos, e a execução da extração em escala requer os chips avançados que os controles de exportação são projetados para restringir.
Contramedidas da Anthropic
A Anthropic está implementando múltiplas defesas contra ataques de destilação:
- Classificadores de detecção: Sistemas de impressão digital comportamental que identificam padrões de destilação no tráfego da API, incluindo a elicitação de 'cadeia de pensamento' usada para construir dados de treinamento de raciocínio
- Compartilhamento de inteligência: Indicadores técnicos compartilhados com outros laboratórios de IA, provedores de nuvem e autoridades relevantes para uma visão holística do cenário de destilação
- Controles de acesso: Verificação reforçada para contas educacionais, programas de pesquisa de segurança e organizações startup — os caminhos mais comumente explorados
- Salvaguardas no nível do modelo: Contramedidas de produto, API e no nível do modelo projetadas para reduzir a eficácia da saída para destilação ilícita sem degradar o uso legítimo
A Anthropic também conectou essas descobertas ao seu apoio anterior às capacidades de Segurança de Código do Claude para defensores, parte de uma estratégia mais ampla para garantir que as capacidades de IA de fronteira permaneçam protegidas.
Resposta Ampla da Indústria Necessária
A Anthropic enfatiza que nenhuma empresa sozinha pode resolver os ataques de destilação. As campanhas exploram serviços de proxy comerciais, plataformas de nuvem de terceiros e lacunas na verificação de contas que abrangem todo o ecossistema de IA.
A crescente intensidade e sofisticação dessas campanhas estreita a janela para agir. A Anthropic observou que os destiladores se adaptam rapidamente: quando novos modelos são lançados, os esforços de extração se voltam para eles em questão de horas. Quando contas são banidas, as redes de proxy as substituem imediatamente através de arquiteturas de 'cluster hidra' sem um único ponto de falha.
Abordar a ameaça requer ação coordenada entre empresas de IA, provedores de nuvem e formuladores de políticas. A Anthropic publicou suas descobertas para tornar a evidência disponível a todos os interessados em proteger as capacidades de IA de fronteira contra a extração não autorizada. A empresa está pedindo padrões em toda a indústria para verificação de contas, estruturas compartilhadas de inteligência de ameaças e apoio político para a aplicação da lei contra a destilação ilícita em escala.
Perguntas Frequentes
O que são ataques de destilação de IA?
Quais empresas destilaram as capacidades do Claude?
Por que os ataques de destilação são um risco à segurança nacional?
Como DeepSeek, Moonshot e MiniMax acessaram o Claude?
Como a Anthropic está respondendo aos ataques de destilação?
O que DeepSeek extraiu especificamente do Claude?
Fique Atualizado
Receba as últimas novidades de IA no seu e-mail.
