¿Qué son los ataques de destilación de IA?

Los ataques de destilación de IA implican entrenar un modelo menos capaz con las salidas de uno más fuerte sin autorización. Los competidores generan volúmenes masivos de instrucciones cuidadosamente elaboradas para extraer capacidades específicas de un modelo frontera, y luego utilizan las respuestas para entrenar sus propios sistemas. Anthropic identificó más de 16 millones de intercambios ilícitos a través de aproximadamente 24,000 cuentas fraudulentas utilizadas por DeepSeek, Moonshot y MiniMax para extraer las capacidades de Claude.

¿Qué empresas destilaron las capacidades de Claude?

Anthropic identificó tres laboratorios de IA chinos que llevaron a cabo campañas de destilación a escala industrial: DeepSeek (más de 150,000 intercambios dirigidos a razonamiento y soluciones para la censura), Moonshot AI (más de 3.4 millones de intercambios dirigidos a razonamiento agéntico y uso de herramientas), y MiniMax (más de 13 millones de intercambios dirigidos a codificación agéntica y orquestación de herramientas).

¿Por qué los ataques de destilación son un riesgo para la seguridad nacional?

Los modelos destilados ilícitamente carecen de las salvaguardias de seguridad que empresas estadounidenses como Anthropic integran en sus sistemas. Estos modelos desprotegidos pueden ser desplegados para operaciones cibernéticas ofensivas, campañas de desinformación, vigilancia masiva e incluso apoyo al desarrollo de armas biológicas. Si los modelos destilados se hacen de código abierto, las capacidades peligrosas se propagan más allá del control de cualquier gobierno, socavando los controles de exportación diseñados para mantener la ventaja de IA de Estados Unidos.

¿Cómo accedieron DeepSeek, Moonshot y MiniMax a Claude?

Los laboratorios eludieron las restricciones de acceso regional de Anthropic utilizando servicios de proxy comerciales que revenden el acceso a la API de Claude a gran escala. Estos servicios ejecutan arquitecturas de 'cluster hidra' con redes extensas de cuentas fraudulentas distribuidas a través de la API de Anthropic y plataformas de nube de terceros. Una red de proxy gestionó más de 20,000 cuentas fraudulentas simultáneamente, mezclando el tráfico de destilación con solicitudes legítimas para evitar la detección.

¿Cómo está respondiendo Anthropic a los ataques de destilación?

Anthropic está desplegando múltiples contramedidas: clasificadores de huellas dactilares conductuales para detectar patrones de destilación en el tráfico de la API, intercambio de inteligencia con otros laboratorios de IA y proveedores de la nube, verificación de cuentas reforzada y salvaguardias a nivel de modelo que reducen la eficacia de la salida para la destilación ilícita sin degradar el servicio para usuarios legítimos. Anthropic también está pidiendo respuestas coordinadas de la industria y la política.

¿Qué extrajo DeepSeek específicamente de Claude?

DeepSeek apuntó a las capacidades de razonamiento de Claude, tareas de calificación basadas en rúbricas (haciendo que Claude funcione como un modelo de recompensa para el aprendizaje por refuerzo), y alternativas seguras contra la censura para consultas políticamente sensibles. Utilizaron técnicas que pedían a Claude que articulara su razonamiento interno paso a paso, generando datos de entrenamiento de 'cadena de pensamiento' a escala. Anthropic rastreó estas cuentas hasta investigadores específicos en DeepSeek.

Anthropic Expone Ataques de Destilación por DeepSeek y MiniMax

Anthropic Descubre Campañas de Destilación a Escala Industrial

Anthropic ha publicado pruebas de que tres laboratorios de IA — DeepSeek, Moonshot AI y MiniMax — llevaron a cabo campañas coordinadas para extraer las capacidades de Claude mediante destilación ilícita. Las campañas generaron más de 16 millones de intercambios con Claude a través de aproximadamente 24,000 cuentas fraudulentas, violando los términos de servicio y las restricciones de acceso regional de Anthropic.

La destilación es una técnica legítima en la que un modelo más pequeño se entrena con las salidas de uno más fuerte. Los laboratorios frontera destilan regularmente sus propios modelos para crear versiones más económicas. Pero cuando los competidores utilizan la destilación sin autorización, adquieren capacidades poderosas a una fracción del costo y el tiempo necesarios para el desarrollo independiente.

Los ataques tuvieron como objetivo las características más diferenciadas de Claude: razonamiento agéntico, uso de herramientas y codificación — las mismas capacidades que impulsan Claude Opus 4.6 y Claude Sonnet 4.6.

Escala y Objetivos de Cada Campaña

Laboratorio	Intercambios	Objetivos Principales
DeepSeek	150,000+	Razonamiento, calificación por modelo de recompensa, soluciones para la censura
Moonshot AI	3.4 millones+	Razonamiento agéntico, uso de herramientas, visión artificial
MiniMax	13 millones+	Codificación agéntica, orquestación de herramientas

DeepSeek utilizó una técnica notable: instrucciones que pedían a Claude que articulara su razonamiento interno paso a paso, generando eficazmente datos de entrenamiento de 'cadena de pensamiento' a escala. También utilizaron a Claude para generar alternativas seguras contra la censura para consultas políticamente sensibles — probablemente para entrenar a sus propios modelos a desviar las conversaciones de temas censurados. Anthropic rastreó estas cuentas hasta investigadores específicos del laboratorio.

Moonshot AI (modelos Kimi) empleó cientos de cuentas fraudulentas a través de múltiples vías de acceso. En una fase posterior, Moonshot cambió a un enfoque más específico, intentando extraer y reconstruir las trazas de razonamiento de Claude.

MiniMax llevó a cabo la campaña más grande con más de 13 millones de intercambios. Anthropic detectó esta campaña mientras aún estaba activa — antes de que MiniMax lanzara el modelo que estaba entrenando. Cuando Anthropic lanzó un nuevo modelo durante la campaña activa, MiniMax pivotó en 24 horas, redirigiendo casi la mitad de su tráfico para capturar las últimas capacidades.

Cómo los Destiladores Eluden las Restricciones de Acceso

Anthropic no ofrece acceso comercial a Claude en China por razones de seguridad nacional. Los laboratorios eludieron esto a través de servicios de proxy comerciales que revenden el acceso a modelos frontera a gran escala.

Estos servicios ejecutan lo que Anthropic denomina arquitecturas de "cluster hidra": redes extensas de cuentas fraudulentas que distribuyen el tráfico a través de la API y plataformas de nube de terceros. Cuando una cuenta es baneada, una nueva la reemplaza. Una red de proxy gestionó más de 20,000 cuentas fraudulentas simultáneamente, mezclando el tráfico de destilación con solicitudes de clientes no relacionadas para dificultar la detección.

Lo que distingue la destilación del uso normal es el patrón. Una sola instrucción puede parecer benigna, pero cuando llegan variaciones decenas de miles de veces a través de cientos de cuentas coordinadas, todas apuntando a la misma capacidad limitada, el patrón se vuelve claro.

Implicaciones para la Seguridad Nacional

Los modelos destilados ilícitamente carecen de las salvaguardias de seguridad que las empresas estadounidenses integran en los sistemas frontera. Estas salvaguardias impiden que la IA se utilice para desarrollar armas biológicas, llevar a cabo operaciones cibernéticas ofensivas o permitir la vigilancia masiva.

Es poco probable que los modelos construidos mediante destilación ilícita conserven esas protecciones. Los laboratorios extranjeros pueden introducir capacidades desprotegidas en sistemas militares, de inteligencia y vigilancia. Si los modelos destilados se hacen de código abierto, las capacidades peligrosas se propagan libremente más allá del control de cualquier gobierno.

Los ataques de destilación también socavan los controles de exportación de Estados Unidos. Sin visibilidad sobre estos ataques, los avances aparentemente rápidos de estos laboratorios pueden interpretarse incorrectamente como evidencia de que los controles de exportación son ineficaces. En realidad, los avances dependen de capacidades extraídas de modelos estadounidenses, y la ejecución de la extracción a escala requiere los chips avanzados que los controles de exportación están diseñados para restringir.

Contramedidas de Anthropic

Anthropic está desplegando múltiples defensas contra los ataques de destilación:

Clasificadores de detección: Sistemas de huellas dactilares conductuales que identifican patrones de destilación en el tráfico de la API, incluida la elicitación de 'cadena de pensamiento' utilizada para construir datos de entrenamiento de razonamiento.
Intercambio de inteligencia: Indicadores técnicos compartidos con otros laboratorios de IA, proveedores de la nube y autoridades relevantes para obtener una imagen holística del panorama de la destilación.
Controles de acceso: Verificación reforzada para cuentas educativas, programas de investigación de seguridad y organizaciones emergentes — las vías más comúnmente explotadas.
Salvaguardias a nivel de modelo: Contramedidas a nivel de producto, API y modelo diseñadas para reducir la eficacia de la salida para la destilación ilícita sin degradar el uso legítimo.

Anthropic también ha vinculado estos hallazgos con su apoyo anterior a las capacidades de Claude Code Security para defensores, parte de una estrategia más amplia para garantizar que las capacidades de IA frontera permanezcan protegidas.

Se Necesita una Respuesta a Nivel de la Industria

Anthropic enfatiza que ninguna empresa por sí sola puede resolver los ataques de destilación. Las campañas explotan servicios de proxy comerciales, plataformas de nube de terceros y lagunas en la verificación de cuentas que abarcan todo el ecosistema de la IA.

La creciente intensidad y sofisticación de estas campañas reduce el margen para actuar. Anthropic ha observado que los destiladores se adaptan rápidamente: cuando se lanzan nuevos modelos, los esfuerzos de extracción giran en cuestión de horas. Cuando se prohíben cuentas, las redes de proxy las reemplazan inmediatamente a través de arquitecturas de "cluster hidra" sin un único punto de fallo.

Abordar la amenaza requiere una acción coordinada entre las empresas de IA, los proveedores de la nube y los responsables políticos. Anthropic publicó sus hallazgos para poner la evidencia a disposición de todos los interesados en proteger las capacidades de IA frontera de la extracción no autorizada. La empresa está pidiendo estándares a nivel de la industria para la verificación de cuentas, marcos compartidos de inteligencia sobre amenazas y apoyo político para la aplicación contra la destilación ilícita a escala.