Ce sunt atacurile de distilare AI?

Atacurile de distilare AI implică antrenarea unui model mai puțin capabil pe rezultatele unui model mai puternic fără autorizație. Concurenții generează volume masive de prompturi atent concepute pentru a extrage capacități specifice dintr-un model de frontieră, apoi folosesc răspunsurile pentru a-și antrena propriile sisteme. Anthropic a identificat peste 16 milioane de schimburi ilicite prin aproximativ 24.000 de conturi frauduloase utilizate de DeepSeek, Moonshot și MiniMax pentru a extrage capacitățile Claude.

Ce companii au distilat capacitățile Claude?

Anthropic a identificat trei laboratoare AI chinezești care desfășoară campanii de distilare la scară industrială: DeepSeek (peste 150.000 de schimburi vizând raționamentul și soluții de eludare a cenzurii), Moonshot AI (peste 3,4 milioane de schimburi vizând raționamentul agentic și utilizarea instrumentelor) și MiniMax (peste 13 milioane de schimburi vizând codificarea agentică și orchestrarea instrumentelor).

De ce sunt atacurile de distilare un risc pentru securitatea națională?

Modelele distilate ilicit nu au barierele de siguranță pe care companiile americane precum Anthropic le integrează în sistemele lor. Aceste modele neprotejate pot fi implementate pentru operațiuni cibernetice ofensive, campanii de dezinformare, supraveghere în masă și chiar sprijinirea dezvoltării armelor biologice. Dacă modelele distilate devin open-source, capacitățile periculoase se răspândesc dincolo de controlul oricărui guvern, subminând controalele la export concepute pentru a menține avantajul AI al Americii.

Cum au accesat DeepSeek, Moonshot și MiniMax Claude?

Laboratoarele au eludat restricțiile regionale de acces ale Anthropic folosind servicii proxy comerciale care revând accesul la API-ul Claude la scară largă. Aceste servicii operează arhitecturi de tip „cluster hidră” cu rețele extinse de conturi frauduloase distribuite prin API-ul Anthropic și platformele cloud terțe. O rețea proxy a gestionat simultan peste 20.000 de conturi frauduloase, amestecând traficul de distilare cu cereri legitime pentru a evita detectarea.

Cum răspunde Anthropic atacurilor de distilare?

Anthropic implementează multiple contramăsuri: clasificatori de amprentare comportamentală pentru a detecta tiparele de distilare în traficul API, partajarea informațiilor cu alte laboratoare AI și furnizori de cloud, verificarea consolidată a conturilor și măsuri de siguranță la nivel de model care reduc eficacitatea rezultatelor pentru distilarea ilicită fără a degrada serviciul pentru utilizatorii legitimi. Anthropic solicită, de asemenea, răspunsuri coordonate din partea industriei și a factorilor de decizie politică.

Ce a extras DeepSeek în mod specific de la Claude?

DeepSeek a vizat capacitățile de raționament ale Claude, sarcini de evaluare bazate pe rubrici (transformând Claude într-un model de recompensă pentru învățarea prin consolidare) și alternative sigure la cenzură pentru interogări sensibile politic. Au folosit tehnici care îi cereau lui Claude să-și articuleze raționamentul intern pas cu pas, generând date de antrenament de tip „chain-of-thought” la scară. Anthropic a urmărit aceste conturi până la cercetători specifici de la DeepSeek.

Anthropic Expune Atacurile de Distilare ale DeepSeek și MiniMax

Anthropic Descoperă Campanii de Distilare la Scară Industrială

Anthropic a publicat dovezi că trei laboratoare AI — DeepSeek, Moonshot AI și MiniMax — au derulat campanii coordonate pentru a extrage capacitățile Claude prin distilare ilicită. Campaniile au generat peste 16 milioane de schimburi cu Claude prin aproximativ 24.000 de conturi frauduloase, încălcând termenii de serviciu și restricțiile regionale de acces ale Anthropic.

Distilarea este o tehnică legitimă prin care un model mai mic este antrenat pe rezultatele unui model mai puternic. Laboratoarele de frontieră își distilează în mod regulat propriile modele pentru a crea versiuni mai puțin costisitoare. Dar atunci când concurenții utilizează distilarea fără autorizație, aceștia dobândesc capacități puternice la o fracțiune din costul și timpul necesar pentru dezvoltarea independentă.

Atacurile au vizat cele mai diferențiate caracteristici ale Claude: raționamentul agentic, utilizarea instrumentelor și codificarea — aceleași capacități care alimentează Claude Opus 4.6 și Claude Sonnet 4.6.

Amploarea și Țintele Fiecare Campanii

Laborator	Schimburi	Ținte Primare
DeepSeek	150.000+	Raționament, evaluare model de recompensă, soluții de eludare a cenzurii
Moonshot AI	3.4 milioane+	Raționament agentic, utilizare instrumente, viziune computerizată
MiniMax	13 milioane+	Codificare agentică, orchestrare instrumente

DeepSeek a folosit o tehnică notabilă: prompturi care îi cereau lui Claude să-și articuleze raționamentul intern pas cu pas, generând efectiv date de antrenament de tip „chain-of-thought” la scară. De asemenea, au folosit Claude pentru a genera alternative sigure la cenzură pentru interogări sensibile politic — probabil pentru a-și antrena propriile modele să devieze conversațiile de la subiecte cenzurate. Anthropic a urmărit aceste conturi până la cercetători specifici din laborator.

Moonshot AI (modelele Kimi) a utilizat sute de conturi frauduloase prin multiple căi de acces. Într-o fază ulterioară, Moonshot a trecut la o abordare mai țintită, încercând să extragă și să reconstituie urmele de raționament ale lui Claude.

MiniMax a derulat cea mai mare campanie, cu peste 13 milioane de schimburi. Anthropic a detectat această campanie în timp ce era încă activă — înainte ca MiniMax să lanseze modelul pe care îl antrena. Când Anthropic a lansat un nou model în timpul campaniei active, MiniMax a pivotat în decurs de 24 de ore, redirecționând aproape jumătate din traficul lor pentru a capta cele mai recente capacități.

Cum Ocolesc Distilatorii Restricțiile de Acces

Anthropic nu oferă acces comercial la Claude în China din motive de securitate națională. Laboratoarele au eludat acest lucru prin servicii proxy comerciale care revând accesul la modele de frontieră la scară largă.

Aceste servicii operează ceea ce Anthropic numește arhitecturi de tip „cluster hidră”: rețele extinse de conturi frauduloase care distribuie traficul prin API și platformele cloud terțe. Când un cont este interzis, unul nou îl înlocuiește. O rețea proxy a gestionat simultan peste 20.000 de conturi frauduloase, amestecând traficul de distilare cu cereri de la clienți fără legătură pentru a îngreuna detectarea.

Ceea ce deosebește distilarea de utilizarea normală este tiparul. Un singur prompt poate părea inofensiv, dar atunci când variații sosesc de zeci de mii de ori prin sute de conturi coordonate, toate vizând aceeași capacitate restrânsă, tiparul devine clar.

Implicații pentru Securitatea Națională

Modelele distilate ilicit nu au barierele de siguranță pe care companiile americane le integrează în sistemele de frontieră. Aceste bariere împiedică utilizarea AI pentru a dezvolta arme biologice, a efectua operațiuni cibernetice ofensive sau a permite supravegherea în masă.

Modelele construite prin distilare ilicită este puțin probabil să rețină aceste protecții. Laboratoarele străine pot introduce capacități neprotejate în sistemele militare, de informații și de supraveghere. Dacă modelele distilate devin open-source, capacitățile periculoase se răspândesc liber dincolo de controlul oricărui guvern.

Atacurile de distilare subminează, de asemenea, controalele la export ale SUA. Fără vizibilitate asupra acestor atacuri, progresele aparent rapide ale acestor laboratoare pot fi interpretate incorect ca dovezi că controalele la export sunt ineficiente. În realitate, progresele depind de capacitățile extrase din modelele americane, iar executarea extracției la scară necesită cipurile avansate pe care controalele la export sunt concepute să le restricționeze.

Contramăsurile Anthropic

Anthropic implementează multiple apărări împotriva atacurilor de distilare:

Clasificatori de detecție: Sisteme de amprentare comportamentală care identifică tiparele de distilare în traficul API, inclusiv elicitarea de tip „chain-of-thought” utilizată pentru a construi date de antrenament pentru raționament
Partajarea informațiilor: Indicatori tehnici partajați cu alte laboratoare AI, furnizori de cloud și autorități relevante pentru o imagine holistică a peisajului distilării
Controale de acces: Verificare consolidată pentru conturile educaționale, programele de cercetare în securitate și organizațiile startup — căile cel mai frecvent exploatate
Măsuri de siguranță la nivel de model: Contramăsuri la nivel de produs, API și model, concepute pentru a reduce eficacitatea rezultatelor pentru distilarea ilicită fără a degrada utilizarea legitimă

Anthropic a conectat, de asemenea, aceste descoperiri cu sprijinul său anterior pentru capacitățile Claude Code Security pentru apărători, parte a unei strategii mai ample de a asigura că capacitățile AI de frontieră rămân protejate.

Este Necesar un Răspuns la Nivelul Industriei

Anthropic subliniază că nicio companie nu poate rezolva singură atacurile de distilare. Campaniile exploatează servicii proxy comerciale, platforme cloud terțe și lacune în verificarea conturilor care se extind la întregul ecosistem AI.

Intensitatea și sofisticarea crescândă a acestor campanii restrâng fereastra de acțiune. Anthropic a observat că distilatorii se adaptează rapid: atunci când sunt lansate noi modele, eforturile de extracție se schimbă în câteva ore. Când conturile sunt interzise, rețelele proxy le înlocuiesc imediat prin arhitecturi de tip „cluster hidră” fără un singur punct de eșec.

Abordarea amenințării necesită o acțiune coordonată între companiile AI, furnizorii de cloud și factorii de decizie politică. Anthropic și-a publicat descoperirile pentru a pune dovezile la dispoziția tuturor celor interesați să protejeze capacitățile AI de frontieră de extracția neautorizată. Compania solicită standarde la nivel de industrie privind verificarea conturilor, cadre comune de informații despre amenințări și sprijin politic pentru aplicarea legii împotriva distilării ilicite la scară largă.