Code Velocity
AI 安全

Anthropic 揭露 DeepSeek 和 MiniMax 的蒸馏攻击

·4 分钟阅读·Anthropic, DeepSeek, Moonshot AI, MiniMax·原始来源
分享
示意图展示了通过欺诈账户网络从前沿 AI 模型到非法复制品的蒸馏攻击流程

Anthropic 揭露工业规模蒸馏活动

Anthropic 发布证据,指出三家 AI 实验室——DeepSeek、Moonshot AI 和 MiniMax——通过非法蒸馏协调行动,窃取 Claude 的能力。这些活动通过大约 24,000 个欺诈账户与 Claude 进行了超过 1600 万次交互,违反了 Anthropic 的服务条款和区域访问限制。

蒸馏是一种合法的技术,即用更强的模型输出训练一个较小的模型。前沿实验室会定期蒸馏自己的模型以创建成本更低的版本。但当竞争对手未经授权使用蒸馏时,他们能以独立开发所需成本和时间的一小部分,获得强大的能力。

这些攻击针对的是 Claude 最具差异化的功能:智能体推理、工具使用和编码——这些能力正是 Claude Opus 4.6Claude Sonnet 4.6 的核心。

各活动规模和目标

实验室交互次数主要目标
DeepSeek150,000+推理、奖励模型评分、规避审查的策略
Moonshot AI340 万+智能体推理、工具使用、计算机视觉
MiniMax1300 万+智能体编码、工具编排

DeepSeek 使用了一种值得注意的技术:通过提示要求 Claude 逐步阐明其内部推理过程,从而大规模生成思维链训练数据。他们还利用 Claude 为政治敏感查询生成审查安全的替代方案——这很可能是为了训练他们自己的模型,使其将对话引离受审查的话题。Anthropic 将这些账户追溯到该实验室的特定研究人员。

Moonshot AI(Kimi 模型)通过多种访问途径使用了数百个欺诈账户。在后期,Moonshot 转向了更有针对性的方法,试图提取和重构 Claude 的推理轨迹。

MiniMax 开展了规模最大的活动,交互次数超过 1300 万次。Anthropic 在该活动仍在进行时就检测到了它——在 MiniMax 发布其正在训练的模型之前。当 Anthropic 在活动期间发布新模型时,MiniMax 在 24 小时内迅速调整,将近一半的流量重新定向,以获取最新能力。

蒸馏者如何规避访问限制

出于国家安全原因,Anthropic 不在中国提供 Claude 的商业访问。这些实验室通过大规模转售前沿模型访问权限的商业代理服务规避了这一限制。

这些服务运行着 Anthropic 称之为“九头蛇集群”的架构:庞大的欺诈账户网络,将流量分布在 API 和第三方云平台之间。当一个账户被封禁时,新的账户会取而代之。其中一个代理网络同时管理着 2 万多个欺诈账户,将蒸馏流量与不相关的客户请求混合,以增加检测难度。

蒸馏与正常使用的区别在于其模式。一个单独的提示可能看起来是良性的,但当成千上万个变体通过数百个协调一致的账户到达,并且都针对相同的狭窄能力时,这种模式就变得清晰可见。

国家安全影响

非法蒸馏的模型缺乏美国公司内置于前沿系统中的安全防护措施。这些防护措施旨在防止 AI 被用于开发生物武器、实施攻击性网络操作或实现大规模监控。

通过非法蒸馏构建的模型不太可能保留这些防护。外国实验室可以将不受保护的能力输入军事、情报和监控系统。如果蒸馏模型被开源,危险能力将自由传播,超出任何政府的控制范围。

蒸馏攻击也损害了美国的出口管制。如果无法了解这些攻击,这些实验室看似快速的进步可能会被错误地解读为出口管制无效的证据。实际上,这些进步依赖于从美国模型中提取的能力,而大规模执行提取需要出口管制旨在限制的先进芯片。

Anthropic 的反制措施

Anthropic 正在部署多项防御蒸馏攻击的措施:

  • 检测分类器:行为指纹系统,用于识别 API 流量中的蒸馏模式,包括用于构建推理训练数据的思维链诱导。
  • 情报共享:与其它 AI 实验室、云提供商和相关机构共享技术指标,以全面了解蒸馏态势。
  • 访问控制:加强对教育账户、安全研究项目和初创组织的验证——这些是遭到滥用最多的途径。
  • 模型级安全防护:产品、API 和模型层面的反制措施,旨在降低非法蒸馏的输出效用,同时不影响合法使用。

Anthropic 还将这些发现与其早前对防御者的 Claude 代码安全 能力的支持联系起来,这是确保前沿 AI 能力受到保护的更广泛战略的一部分。

需要行业范围内的响应

Anthropic 强调,任何一家公司都无法单独解决蒸馏攻击问题。这些活动利用了商业代理服务、第三方云平台以及账户验证中的漏洞,这些漏洞遍布整个 AI 生态系统。

这些活动的强度和复杂性不断增加,缩短了采取行动的时间窗口。Anthropic 观察到,蒸馏者适应迅速:当新模型发布时,提取工作在数小时内就会转向。当账户被封禁时,代理网络会立即通过没有单点故障的九头蛇集群架构替换它们。

应对这一威胁需要 AI 公司、云提供商和政策制定者之间的协调行动。Anthropic 发布了其发现,以便所有对保护前沿 AI 能力免受未经授权提取有利益关系的人都能获取这些证据。该公司正在呼吁制定账户验证的行业标准、共享威胁情报框架,并为大规模打击非法蒸馏提供政策支持。

常见问题

什么是 AI 蒸馏攻击?
AI 蒸馏攻击指未经授权,利用功能更强的模型输出训练一个功能较弱的模型。竞争对手生成大量精心设计的提示,从前沿模型中提取特定能力,然后利用这些响应来训练自己的系统。Anthropic 发现 DeepSeek、Moonshot 和 MiniMax 利用大约 24,000 个欺诈账户进行了超过 1600 万次非法交互,以窃取 Claude 的能力。
哪些公司窃取了 Claude 的能力?
Anthropic 确定了三家中国 AI 实验室进行了工业规模的蒸馏活动:DeepSeek(超过 15 万次交互,目标是推理和规避审查的策略),Moonshot AI(超过 340 万次交互,目标是智能体推理和工具使用),以及 MiniMax(超过 1300 万次交互,目标是智能体编码和工具编排)。
为什么蒸馏攻击是国家安全风险?
非法蒸馏模型缺乏 Anthropic 等美国公司内置于其系统中的安全防护措施。这些不受保护的模型可用于攻击性网络操作、虚假信息宣传、大规模监控,甚至生物武器开发支持。如果蒸馏模型被开源,危险能力将超出任何一个政府的控制范围,从而损害旨在维护美国 AI 优势的出口管制。
DeepSeek、Moonshot 和 MiniMax 如何访问 Claude?
这些实验室通过商业代理服务大规模转售 Claude API 访问权限,从而规避了 Anthropic 的区域访问限制。这些服务运行着“九头蛇集群”架构,拥有庞大的欺诈账户网络,分布在 Anthropic 的 API 和第三方云平台上。其中一个代理网络同时管理着 2 万多个欺诈账户,将蒸馏流量与合法请求混合,以逃避检测。
Anthropic 如何应对蒸馏攻击?
Anthropic 正在部署多项反制措施:用于检测 API 流量中蒸馏模式的行为指纹分类器、与其它 AI 实验室和云提供商共享情报、加强账户验证,以及在模型层面实施安全防护,在不影响合法用户服务的情况下降低非法蒸馏的输出效用。Anthropic 还在呼吁协调一致的行业和政策应对措施。
DeepSeek 具体从 Claude 中提取了什么?
DeepSeek 针对的是 Claude 的推理能力、基于规则的评分任务(让 Claude 充当强化学习的奖励模型),以及针对政治敏感查询的审查安全替代方案。他们使用的方法是要求 Claude 逐步阐明其内部推理过程,从而大规模生成思维链训练数据。Anthropic 将这些账户追溯到 DeepSeek 的特定研究人员。

保持更新

将最新AI新闻发送到您的收件箱。

分享