AI 증류 공격이란 무엇인가요?

AI 증류 공격은 권한 없이 더 강력한 모델의 출력을 사용하여 덜 유능한 모델을 훈련하는 것을 포함합니다. 경쟁사들은 프론티어 모델에서 특정 역량을 추출하기 위해 대량의 정교하게 조작된 프롬프트를 생성한 다음, 해당 응답을 사용하여 자체 시스템을 훈련합니다. Anthropic은 DeepSeek, Moonshot 및 MiniMax가 Claude의 역량을 추출하기 위해 사용한 약 24,000개의 사기 계정을 통해 1,600만 건 이상의 불법 교환을 확인했습니다.

어떤 회사들이 Claude의 역량을 증류했나요?

Anthropic은 산업 규모의 증류 캠페인을 수행한 세 개의 중국 AI 연구소를 확인했습니다: DeepSeek(추론 및 검열 우회 작업을 목표로 한 15만 건 이상의 교환), Moonshot AI(에이전트적 추론 및 도구 사용을 목표로 한 340만 건 이상의 교환), 그리고 MiniMax(에이전트적 코딩 및 도구 오케스트레이션을 목표로 한 1,300만 건 이상의 교환)입니다.

증류 공격이 국가 안보 위험인 이유는 무엇인가요?

불법적으로 증류된 모델은 Anthropic과 같은 미국 기업이 시스템에 구축하는 안전 장치가 없습니다. 이러한 보호되지 않은 모델은 공격적인 사이버 작전, 허위 정보 캠페인, 대규모 감시, 심지어 생물무기 개발 지원에도 배포될 수 있습니다. 증류된 모델이 오픈 소스화되면 위험한 역량이 단일 정부의 통제를 넘어 확산되어 미국의 AI 우위를 유지하기 위한 수출 통제를 약화시킵니다.

DeepSeek, Moonshot, MiniMax는 어떻게 Claude에 접근했나요?

이 연구소들은 Claude API 접근을 대규모로 재판매하는 상업용 프록시 서비스를 사용하여 Anthropic의 지역 접근 제한을 우회했습니다. 이 서비스들은 Anthropic의 API와 타사 클라우드 플랫폼에 분산된 방대한 사기 계정 네트워크를 가진 하이드라 클러스터 아키텍처를 운영합니다. 한 프록시 네트워크는 20,000개 이상의 사기 계정을 동시에 관리하며, 증류 트래픽을 합법적인 요청과 혼합하여 탐지를 피했습니다.

Anthropic은 증류 공격에 어떻게 대응하고 있나요?

Anthropic은 여러 가지 대응책을 배포하고 있습니다: API 트래픽에서 증류 패턴을 탐지하기 위한 행동 지문 분류기, 다른 AI 연구소 및 클라우드 제공업체와의 정보 공유, 강화된 계정 확인, 그리고 합법적인 사용자에게 서비스 품질 저하 없이 불법 증류에 대한 출력 효능을 감소시키는 모델 수준의 안전 장치입니다. Anthropic은 또한 조율된 업계 및 정책 대응을 요구하고 있습니다.

DeepSeek은 Claude에서 구체적으로 무엇을 추출했나요?

DeepSeek은 Claude의 추론 능력, 루브릭 기반 채점 작업(Claude를 강화 학습의 보상 모델로 기능하게 하는 것), 그리고 정치적으로 민감한 쿼리에 대한 검열 안전 대안을 목표로 삼았습니다. 그들은 Claude에게 내부 추론을 단계별로 설명하도록 요청하는 기술을 사용하여 대규모의 사고 과정(chain-of-thought) 훈련 데이터를 생성했습니다. Anthropic은 이 계정들을 DeepSeek의 특정 연구원들과 연결시켰습니다.

Anthropic, DeepSeek 및 MiniMax의 증류 공격 공개

Anthropic, 산업 규모의 증류 캠페인 발각

Anthropic은 DeepSeek, Moonshot AI, MiniMax 세 개의 AI 연구소가 불법 증류를 통해 Claude의 역량을 추출하기 위한 조직적인 캠페인을 벌였다는 증거를 발표했습니다. 이 캠페인은 약 24,000개의 사기 계정을 통해 Claude와 1,600만 건 이상의 교환을 생성했으며, 이는 Anthropic의 서비스 약관 및 지역 접근 제한을 위반하는 것입니다.

증류는 더 작은 모델이 더 강력한 모델의 출력을 사용하여 훈련되는 합법적인 기술입니다. 프론티어 연구소들은 자체 모델을 증류하여 더 저렴한 버전을 만듭니다. 그러나 경쟁사들이 승인 없이 증류를 사용하면 독립적인 개발에 필요한 비용과 시간의 일부만으로 강력한 역량을 얻게 됩니다.

이 공격은 Claude의 가장 차별화된 기능인 에이전트적 추론, 도구 사용, 코딩을 목표로 했습니다. 이는 Claude Opus 4.6 및 Claude Sonnet 4.6의 핵심 역량입니다.

각 캠페인의 규모 및 목표

연구소	교환 건수	주요 목표
DeepSeek	15만+	추론, 보상 모델 채점, 검열 우회
Moonshot AI	340만+	에이전트적 추론, 도구 사용, 컴퓨터 비전
MiniMax	1,300만+	에이전트적 코딩, 도구 오케스트레이션

DeepSeek은 Claude에게 내부 추론을 단계별로 설명하도록 요청하는 주목할 만한 기술을 사용했습니다. 이는 대규모의 사고 과정(chain-of-thought) 훈련 데이터를 효과적으로 생성하는 방식입니다. 또한 그들은 Claude를 사용하여 정치적으로 민감한 질문에 대한 검열 안전 대안을 생성했습니다. 이는 아마도 검열된 주제에서 대화를 벗어나도록 자체 모델을 훈련하기 위함이었을 것입니다. Anthropic은 이 계정들을 해당 연구소의 특정 연구원들과 연결했습니다.

Moonshot AI(Kimi 모델)는 여러 접근 경로를 통해 수백 개의 사기 계정을 사용했습니다. 나중 단계에서 Moonshot은 Claude의 추론 흔적을 추출하고 재구성하려는 보다 표적화된 접근 방식으로 전환했습니다.

MiniMax는 1,300만 건 이상의 교환으로 가장 큰 캠페인을 진행했습니다. Anthropic은 MiniMax가 훈련 중이던 모델을 출시하기 전, 이 캠페인이 활발하게 진행 중일 때 이를 탐지했습니다. Anthropic이 활발한 캠페인 중에 새 모델을 출시하자, MiniMax는 24시간 이내에 방향을 전환하여 최신 역량을 포착하기 위해 트래픽의 거의 절반을 돌렸습니다.

증류자들이 접근 제한을 우회하는 방법

Anthropic은 국가 안보상의 이유로 중국에서 Claude의 상업적 접근을 제공하지 않습니다. 연구소들은 프론티어 모델 접근을 대규모로 재판매하는 상업용 프록시 서비스를 통해 이를 우회했습니다.

이 서비스들은 Anthropic이 "하이드라 클러스터" 아키텍처라고 부르는 것을 운영합니다: API와 타사 클라우드 플랫폼에 트래픽을 분산하는 방대한 사기 계정 네트워크입니다. 하나의 계정이 차단되면 새 계정이 즉시 대체됩니다. 한 프록시 네트워크는 20,000개 이상의 사기 계정을 동시에 관리하며, 증류 트래픽을 무관한 고객 요청과 혼합하여 탐지를 어렵게 만들었습니다.

증류가 일반적인 사용과 구별되는 점은 패턴입니다. 단일 프롬프트는 무해하게 보일 수 있지만, 수백 개의 조직된 계정에서 동일한 좁은 역량을 목표로 수만 번의 변형이 도착하면 패턴은 명확해집니다.

국가 안보에 미치는 영향

불법적으로 증류된 모델에는 미국 기업이 프론티어 시스템에 구축하는 안전 장치가 없습니다. 이러한 안전 장치는 AI가 생물무기를 개발하거나 공격적인 사이버 작전을 수행하거나 대규모 감시를 가능하게 하는 데 사용되는 것을 방지합니다.

불법 증류를 통해 구축된 모델은 이러한 보호 기능을 유지하지 못할 가능성이 큽니다. 해외 연구소들은 보호되지 않은 역량을 군사, 정보 및 감시 시스템에 투입할 수 있습니다. 증류된 모델이 오픈 소스화되면 위험한 역량이 어떤 정부의 통제도 넘어 자유롭게 확산됩니다.

증류 공격은 또한 미국의 수출 통제를 약화시킵니다. 이러한 공격을 인지하지 못하면, 이들 연구소의 겉으로 보기에 빠른 발전이 수출 통제가 비효율적이라는 증거로 잘못 해석될 수 있습니다. 실제로는 이러한 발전은 미국 모델에서 추출된 역량에 의존하며, 대규모 추출을 실행하려면 수출 통제가 제한하도록 설계된 고급 칩이 필요합니다.

Anthropic의 대응책

Anthropic은 증류 공격에 대한 여러 방어책을 배포하고 있습니다:

탐지 분류기: 추론 훈련 데이터를 구성하는 데 사용되는 사고 과정(chain-of-thought) 유도를 포함하여 API 트래픽에서 증류 패턴을 식별하는 행동 지문 시스템
정보 공유: 증류 상황에 대한 전체적인 그림을 위해 다른 AI 연구소, 클라우드 제공업체 및 관련 당국과 기술 지표 공유
접근 제어: 가장 흔히 악용되는 경로인 교육 계정, 보안 연구 프로그램 및 스타트업 조직에 대한 확인 강화
모델 수준의 안전 장치: 합법적인 사용을 저하시키지 않으면서 불법 증류에 대한 출력 효능을 감소시키도록 설계된 제품, API 및 모델 수준의 대응책

Anthropic은 또한 이러한 발견 사항을 방어자를 위한 Claude Code Security 역량에 대한 초기 지원과 연결시켰습니다. 이는 프론티어 AI 역량을 계속 보호하기 위한 더 넓은 전략의 일환입니다.

업계 전반의 대응 필요

Anthropic은 증류 공격을 단일 회사가 해결할 수 없다고 강조합니다. 이 캠페인들은 상업용 프록시 서비스, 타사 클라우드 플랫폼, 그리고 전체 AI 생태계에 걸쳐 있는 계정 확인의 허점을 악용합니다.

이러한 캠페인의 강도와 정교함이 커지면서 행동할 수 있는 시간이 줄어들고 있습니다. Anthropic은 증류자들이 빠르게 적응한다는 것을 관찰했습니다: 새 모델이 출시되면 추출 노력은 몇 시간 내에 전환됩니다. 계정이 차단되면 프록시 네트워크는 단일 실패 지점이 없는 하이드라 클러스터 아키텍처를 통해 즉시 대체합니다.

이 위협에 대처하려면 AI 기업, 클라우드 제공업체 및 정책 입안자 간의 조율된 행동이 필요합니다. Anthropic은 프론티어 AI 역량을 무단 추출로부터 보호하는 데 이해관계가 있는 모든 사람이 증거를 활용할 수 있도록 연구 결과를 발표했습니다. 회사는 계정 확인에 대한 업계 전반의 표준, 공유 위협 인텔리전스 프레임워크, 그리고 대규모 불법 증류에 대한 집행을 위한 정책 지원을 요구하고 있습니다.