AI蒸留攻撃とは何ですか？

AI蒸留攻撃とは、より強力なモデルの出力を無許可で利用して、能力の低いモデルを訓練することです。競合他社は、フロンティアモデルから特定の能力を抽出するために、大量の綿密に作成されたプロンプトを生成し、その応答を利用して自社のシステムを訓練します。Anthropicは、DeepSeek、Moonshot、MiniMaxがClaudeの能力を抽出するために使用した、約24,000の不正アカウントにわたる1600万件以上の違法なやり取りを特定しました。

どの企業がClaudeの能力を蒸留しましたか？

Anthropicは、産業規模の蒸留キャンペーンを実施していた中国のAI研究所3社を特定しました。DeepSeek（推論と検閲回避を標的とした15万件以上のやり取り）、Moonshot AI（エージェント的推論とツール使用を標的とした340万件以上のやり取り）、MiniMax（エージェント的コーディングとツールオーケストレーションを標的とした1300万件以上のやり取り）です。

蒸留攻撃が国家安全保障上のリスクとなるのはなぜですか？

不正に蒸留されたモデルには、Anthropicのような米国企業が自社システムに組み込む安全ガードレールが欠如しています。これらの保護されていないモデルは、攻撃的なサイバー作戦、偽情報キャンペーン、大規模な監視、さらには生物兵器開発支援に利用される可能性があります。蒸留されたモデルがオープンソース化された場合、危険な能力はどの政府の制御も超えて広がり、米国のAI優位性を維持するために設計された輸出管理を損なうことになります。

DeepSeek、Moonshot、MiniMaxはどのようにClaudeにアクセスしましたか？

各研究所は、Claude APIへのアクセスを大規模に再販する商用プロキシサービスを利用して、Anthropicの地域アクセス制限を回避しました。これらのサービスは、AnthropicのAPIとサードパーティのクラウドプラットフォームに分散された不正アカウントの広範なネットワークを持つ「ハイドラクラスター」アーキテクチャを実行しています。あるプロキシネットワークは、20,000以上の不正アカウントを同時に管理し、蒸留トラフィックを正規のリクエストと混ぜて検出を回避していました。

Anthropicは蒸留攻撃にどのように対応していますか？

Anthropicは複数の対策を講じています。APIトラフィックにおける蒸留パターンを検出するための行動フィンガープリント分類器、他のAIラボやクラウドプロバイダーとの情報共有、アカウント認証の強化、そして正規のユーザーへのサービスを低下させることなく、不正な蒸留に対する出力効果を低減するモデルレベルの安全対策です。Anthropicはまた、協調的な業界および政策対応も求めています。

DeepSeekはClaudeから具体的に何を抽出しましたか？

DeepSeekは、Claudeの推論能力、ルーブリックベースの評価タスク（Claudeを強化学習の報酬モデルとして機能させる）、および政治的に機微なクエリに対する検閲に配慮した代替案を標的としました。彼らは、Claudeにその内部推論を段階的に明確化するよう求める手法を使用し、大規模な思考連鎖トレーニングデータを生成しました。Anthropicは、これらのアカウントをDeepSeekの特定の研究者に追跡しました。

Anthropic、DeepSeekとMiniMaxによる蒸留攻撃を摘発

Anthropicが産業規模の蒸留キャンペーンを摘発

Anthropicは、DeepSeek、Moonshot AI、MiniMaxの3つのAI研究所が、不正な蒸留を通じてClaudeの能力を抽出するための協調的なキャンペーンを実施した証拠を公表しました。これらのキャンペーンは、約24,000の不正アカウントを介してClaudeと1600万件以上のやり取りを生成し、Anthropicの利用規約および地域アクセス制限に違反していました。

蒸留は、より強力なモデルの出力に基づいて、より小さなモデルを訓練する正当な手法です。フロンティアラボは、コストを抑えたバージョンを作成するために、定期的に自社のモデルを蒸留します。しかし、競合他社が許可なく蒸留を使用する場合、独立した開発に必要なコストと時間のほんの一部で、強力な能力を獲得することになります。

これらの攻撃は、Claudeの最も差別化された機能であるエージェント的推論、ツール使用、コーディングを標的としました。これらは、Claude Opus 4.6およびClaude Sonnet 4.6の基盤となる能力と同じです。

各キャンペーンの規模と標的

ラボ	やり取りの件数	主な標的
DeepSeek	15万件以上	推論、報酬モデル評価、検閲回避
Moonshot AI	340万件以上	エージェント的推論、ツール使用、コンピュータビジョン
MiniMax	1300万件以上	エージェント的コーディング、ツールオーケストレーション

DeepSeekは注目すべき手法を用いました。Claudeにその内部推論を段階的に明確にするよう求めるプロンプトで、大規模な思考連鎖トレーニングデータを効果的に生成しました。また、Claudeを使って政治的に機微なクエリに対する検閲に配慮した代替案を生成しました。これは、自社のモデルを訓練して検閲対象のトピックから会話をそらすためと考えられます。Anthropicは、これらのアカウントをDeepSeekの特定の研究者に追跡しました。

Moonshot AI（Kimiモデル）は、複数のアクセス経路にわたって何百もの不正アカウントを使用しました。後の段階では、Moonshotはより標的を絞ったアプローチに転換し、Claudeの推論トレースを抽出し再構築しようとしました。

MiniMaxは1300万件以上のやり取りを伴う最大のキャンペーンを実施しました。Anthropicは、MiniMaxが訓練中のモデルをリリースする前に、このキャンペーンがまだ進行中であった時にそれを検出しました。Anthropicがアクティブなキャンペーン中に新しいモデルをリリースすると、MiniMaxは24時間以内に方向転換し、トラフィックのほぼ半分を最新の能力を取り込むために再誘導しました。

蒸留業者はアクセス制限をどのように回避しているか

Anthropicは、国家安全保障上の理由から、中国での商用Claudeアクセスを提供していません。各研究所は、フロンティアモデルへのアクセスを大規模に再販する商用プロキシサービスを通じてこれを回避しました。

これらのサービスは、Anthropicが「ハイドラクラスター」アーキテクチャと呼ぶものを実行しています。これは、APIとサードパーティのクラウドプラットフォームにトラフィックを分散する広範な不正アカウントのネットワークです。1つのアカウントがBANされると、新しいアカウントがそれに取って代わります。あるプロキシネットワークは、20,000以上の不正アカウントを同時に管理し、蒸留トラフィックを無関係な顧客リクエストと混ぜて検出を困難にしていました。

蒸留が通常の利用と異なるのはそのパターンです。単一のプロンプトは無害に見えるかもしれませんが、数百の協調アカウントで数万回ものバリエーションが届き、すべて同じ狭い能力を標的としている場合、そのパターンは明確になります。

国家安全保障上の意味合い

不正に蒸留されたモデルには、米国企業がフロンティアシステムに組み込む安全ガードレールが欠如しています。これらのガードレールは、AIが生物兵器の開発、攻撃的なサイバー作戦、または大規模な監視に利用されるのを防ぎます。

不正な蒸留によって構築されたモデルが、それらの保護機能を維持する可能性は低いでしょう。外国の研究所は、保護されていない能力を軍事、情報、監視システムに供給することができます。蒸留されたモデルがオープンソース化された場合、危険な能力はどの政府の制御も超えて自由に拡散します。

蒸留攻撃はまた、米国の輸出管理を損ないます。これらの攻撃が可視化されなければ、これらの研究所による明らかな急速な進歩は、輸出管理が効果的ではないという証拠として誤って解釈される可能性があります。実際には、これらの進歩はアメリカのモデルから抽出された能力に依存しており、大規模な抽出を実行するには、輸出管理が制限することを目的としている高度なチップが必要となります。

Anthropicの対抗策

Anthropicは、蒸留攻撃に対して複数の防御策を講じています。

検出分類器: APIトラフィックにおける蒸留パターンを特定する行動フィンガープリントシステム。これには、推論トレーニングデータを構築するために使用される思考連鎖の引き出しも含まれます。
情報共有: 蒸留の状況を全体的に把握するために、他のAIラボ、クラウドプロバイダー、および関連当局と共有される技術指標。
アクセス制御: 教育機関アカウント、セキュリティ研究プログラム、スタートアップ組織（最も一般的に悪用される経路）に対する認証の強化。
モデルレベルの安全対策: 正当な利用を損なうことなく、不正な蒸留に対する出力効果を低減するように設計された製品、API、およびモデルレベルの対策。

Anthropicはまた、これらの知見を、フロンティアAI能力が保護された状態を維持するためのより広範な戦略の一部として、Claudeコードセキュリティ能力への以前の支援と関連付けています。

業界全体での対応が必要

Anthropicは、蒸留攻撃は単一の企業だけでは解決できないことを強調しています。これらのキャンペーンは、商用プロキシサービス、サードパーティのクラウドプラットフォーム、およびAIエコシステム全体にわたるアカウント認証の隙間を悪用しています。

これらのキャンペーンの強度と巧妙さが増すにつれて、対応できる期間は狭まっています。Anthropicは、蒸留業者が迅速に適応することを確認しています。新しいモデルがリリースされると、抽出の取り組みは数時間以内に転換します。アカウントがBANされると、プロキシネットワークは単一障害点のないハイドラクラスターアーキテクチャを通じて、直ちに新しいアカウントに置き換えます。

この脅威に対処するには、AI企業、クラウドプロバイダー、および政策立案者の間の協調的な行動が必要です。Anthropicは、フロンティアAI能力の無許可抽出からの保護に関心を持つすべての人々に証拠を提供するために、その調査結果を公開しました。同社は、アカウント認証に関する業界全体の標準、共有脅威インテリジェンスフレームワーク、および大規模な不正蒸留に対する執行のための政策支援を求めています。