Kas yra AI distiliavimo atakos?

AI distiliavimo atakos apima mažiau galingo modelio apmokymą naudojant stipresnio modelio rezultatus be leidimo. Konkurentai generuoja didžiulius kiekius kruopščiai parengtų užklausų, kad išgautų specifines galimybes iš pažangiojo modelio, o tada naudoja atsakymus savo sistemoms apmokyti. Anthropic nustatė daugiau nei 16 milijonų neteisėtų mainų per maždaug 24 000 sukčių paskyrų, kurias DeepSeek, Moonshot ir MiniMax naudojo Claude galimybėms išgauti.

Kurios įmonės distiliavo Claude galimybes?

Anthropic nustatė tris Kinijos AI laboratorijas, vykdančias pramoninio masto distiliavimo kampanijas: DeepSeek (daugiau nei 150 000 mainų, skirtų samprotavimams ir cenzūros apėjimui), Moonshot AI (daugiau nei 3,4 milijono mainų, skirtų agentiniams samprotavimams ir įrankių naudojimui) ir MiniMax (daugiau nei 13 milijonų mainų, skirtų agentiniam kodavimui ir įrankių orkestravimui).

Kodėl distiliavimo atakos kelia nacionalinio saugumo riziką?

Neteisėtai distiliuoti modeliai neturi saugumo priemonių, kurias JAV įmonės, tokios kaip Anthropic, įdiegia savo sistemose. Šie neapsaugoti modeliai gali būti naudojami puolamosioms kibernetinėms operacijoms, dezinformacijos kampanijoms, masiniam sekimui ir net biologinių ginklų kūrimo palaikymui. Jei distiliuoti modeliai tampa atvirojo kodo, pavojingos galimybės plinta už bet kurios vyriausybės kontrolės ribų, kenkdamos eksporto kontrolės priemonėms, skirtoms išlaikyti Amerikos AI pranašumą.

Kaip DeepSeek, Moonshot ir MiniMax gavo prieigą prie Claude?

Laboratorijos apėjo Anthropic regioninius prieigos apribojimus, naudodamos komercines tarpines paslaugas, kurios dideliu mastu perparduoda Claude API prieigą. Šios paslaugos naudoja hidros klasterio architektūras su išplėstais sukčių paskyrų tinklais, paskirstytais per Anthropic API ir trečiųjų šalių debesų platformas. Vienas tarpinių serverių tinklas vienu metu valdė daugiau nei 20 000 sukčių paskyrų, maišydamas distiliavimo srautą su teisėtomis užklausomis, kad būtų išvengta aptikimo.

Kaip Anthropic reaguoja į distiliavimo atakas?

Anthropic diegia daugybę priešpriešinių priemonių: elgsenos atpažinimo klasifikatorius, skirtus distiliavimo modeliams aptikti API sraute, dalijimąsi žvalgybine informacija su kitomis AI laboratorijomis ir debesų paslaugų teikėjais, sustiprintą paskyrų patvirtinimą ir modelio lygio apsaugos priemones, kurios sumažina išvesties efektyvumą neteisėtam distiliavimui, nepabloginant paslaugų teisėtiems vartotojams. Anthropic taip pat ragina koordinuotų pramonės ir politikos atsako veiksmų.

Ką konkrečiai DeepSeek išgavo iš Claude?

DeepSeek taikėsi į Claude samprotavimo galimybes, vertinimo pagal rubrikas užduotis (priversdami Claude veikti kaip apdovanojimo modelį stiprinant mokymąsi) ir cenzūrai atsparias alternatyvas politiškai jautriems klausimams. Jie naudojo metodus, kurie prašė Claude išdėstyti savo vidinius samprotavimus žingsnis po žingsnio, generuodami didelio masto „minčių grandinės“ (chain-of-thought) mokymo duomenis. Anthropic šias paskyras atsekė iki konkrečių DeepSeek tyrėjų.

Anthropic atskleidžia DeepSeek ir MiniMax distiliavimo atakas

Anthropic atskleidžia pramoninio masto distiliavimo kampanijas

Anthropic paskelbė įrodymus, kad trys AI laboratorijos – DeepSeek, Moonshot AI ir MiniMax – vykdė koordinuotas kampanijas, skirtas išgauti Claude galimybes neteisėtu distiliavimu. Kampanijų metu per maždaug 24 000 sukčių paskyrų buvo įvykdyta daugiau nei 16 milijonų mainų su Claude, pažeidžiant Anthropic paslaugų teikimo sąlygas ir regioninius prieigos apribojimus.

Distiliavimas yra teisėta technika, kai mažesnis modelis apmokomas naudojant stipresnio modelio išvestis. Pažangiausios laboratorijos reguliariai distiliuoja savo modelius, kad sukurtų pigesnes versijas. Tačiau kai konkurentai naudoja distiliavimą be leidimo, jie įgyja galingas galimybes už dalį kainos ir laiko, reikalingo savarankiškam kūrimui.

Atakos buvo nukreiptos į labiausiai išskirtines Claude savybes: agentinį samprotavimą, įrankių naudojimą ir kodavimą – tas pačias galimybes, kurios varo Claude Opus 4.6 ir Claude Sonnet 4.6.

Kiekvienos kampanijos mastas ir tikslai

Laboratorija	Mainai	Pagrindiniai tikslai
DeepSeek	150 000+	Samprotavimas, atlygio modelio vertinimas, cenzūros apėjimai
Moonshot AI	3,4 milijonai+	Agentinis samprotavimas, įrankių naudojimas, kompiuterinė rega
MiniMax	13 milijonų+	Agentinis kodavimas, įrankių orkestravimas

DeepSeek naudojo pastebimą techniką: užklausas, kurios prašė Claude išdėstyti savo vidinius samprotavimus žingsnis po žingsnio, efektyviai generuojant didelio masto „minčių grandinės“ (chain-of-thought) mokymo duomenis. Jie taip pat naudojo Claude generuoti cenzūrai atsparias alternatyvas politiškai jautriems klausimams – tikriausiai siekdami apmokyti savo modelius nukreipti pokalbius nuo cenzūruotų temų. Anthropic šias paskyras atsekė iki konkrečių laboratorijos tyrėjų.

Moonshot AI (Kimi modeliai) pasitelkė šimtus sukčių paskyrų per kelis prieigos kelius. Vėlesniame etape Moonshot perėjo prie tikslesnio požiūrio, bandydami išgauti ir atkurti Claude samprotavimo pėdsakus.

MiniMax vykdė didžiausią kampaniją, kurios metu įvyko daugiau nei 13 milijonų mainų. Anthropic aptiko šią kampaniją, kol ji dar buvo aktyvi – prieš MiniMax išleidžiant modelį, kurį jie apmokė. Kai Anthropic išleido naują modelį aktyvios kampanijos metu, MiniMax per 24 valandas pakeitė savo kryptį, nukreipdami beveik pusę savo srauto, kad užfiksuotų naujausias galimybes.

Kaip distiliuotojai apeina prieigos apribojimus

Anthropic nesiūlo komercinės prieigos prie Claude Kinijoje dėl nacionalinio saugumo priežasčių. Laboratorijos tai apėjo naudodamos komercines tarpines paslaugas, kurios dideliu mastu perparduoda prieigą prie pažangiųjų modelių.

Šios paslaugos naudoja tai, ką Anthropic vadina „hidros klasterio“ architektūromis: išsiplėtusius sukčių paskyrų tinklus, kurie paskirsto srautą per API ir trečiųjų šalių debesų platformas. Kai viena paskyra užblokuojama, ją pakeičia nauja. Vienas tarpinių serverių tinklas vienu metu valdė daugiau nei 20 000 sukčių paskyrų, maišydamas distiliavimo srautą su nesusijusiais klientų prašymais, kad būtų sunkiau aptikti.

Tai, kas distiliavimą skiria nuo įprasto naudojimo, yra modelis. Viena užklausa gali atrodyti nepavojinga, tačiau kai dešimtys tūkstančių variacijų atkeliauja per šimtus koordinuotų paskyrų, visos nukreiptos į tą pačią siaurą galimybę, modelis tampa aiškus.

Nacionalinio saugumo pasekmės

Neteisėtai distiliuoti modeliai neturi saugumo priemonių, kurias JAV įmonės įdiegia į pažangiausias sistemas. Šios apsaugos priemonės neleidžia dirbtiniam intelektui būti naudojamam biologiniams ginklams kurti, puolamosioms kibernetinėms operacijoms vykdyti ar masiniam sekimui.

Modeliai, sukurti neteisėto distiliavimo būdu, vargu ar išlaikys tas apsaugos priemones. Užsienio laboratorijos gali perduoti neapsaugotas galimybes karinėms, žvalgybos ir stebėjimo sistemoms. Jei distiliuoti modeliai tampa atvirojo kodo, pavojingos galimybės laisvai plinta už bet kurios vyriausybės kontrolės ribų.

Distiliavimo atakos taip pat kenkia JAV eksporto kontrolei. Nesant šių atakų matomumo, tariamai spartūs šių laboratorijų pasiekimai gali būti neteisingai interpretuojami kaip įrodymas, kad eksporto kontrolė yra neveiksminga. Iš tikrųjų pasiekimai priklauso nuo galimybių, išgautų iš Amerikos modelių, o didelio masto išgavimui reikia pažangių mikroschemų, kurių eksporto kontrolės priemonės yra skirtos apriboti.

Anthropic atsako priemonės

Anthropic diegia daugybę gynybos priemonių nuo distiliavimo atakų:

Aptikimo klasifikatoriai: Elgsenos atpažinimo sistemos, kurios identifikuoja distiliavimo modelius API sraute, įskaitant „minčių grandinės“ išgavimą, naudojamą samprotavimo mokymo duomenims sudaryti.
Dalijimasis žvalgybine informacija: Techniniai rodikliai, dalijamasi su kitomis AI laboratorijomis, debesų paslaugų teikėjais ir atitinkamomis institucijomis, siekiant gauti visapusišką distiliavimo aplinkos vaizdą.
Prieigos kontrolė: Sustiprintas švietimo paskyrų, saugumo tyrimų programų ir startuolių organizacijų patvirtinimas – dažniausiai išnaudojami keliai.
Modelio lygio apsaugos priemonės: Produkto, API ir modelio lygio priešpriešinės priemonės, skirtos sumažinti išvesties efektyvumą neteisėtam distiliavimui, nepabloginant teisėto naudojimo.

Anthropic taip pat susiejo šias išvadas su ankstesne parama Claude Code Security galimybėms gynėjams, kas yra platesnės strategijos dalis, siekiant užtikrinti, kad pažangiausios AI galimybės liktų apsaugotos.

Reikalingas visos pramonės atsakas

Anthropic pabrėžia, kad jokia atskira įmonė negali viena pati išspręsti distiliavimo atakų problemos. Kampanijos išnaudoja komercines tarpines paslaugas, trečiųjų šalių debesų platformas ir paskyrų patvirtinimo spragas, apimančias visą AI ekosistemą.

Didėjantis šių kampanijų intensyvumas ir sudėtingumas siaurina veiksmų langą. Anthropic pastebėjo, kad distiliuotojai greitai prisitaiko: išleidus naujus modelius, išgavimo pastangos keičiasi per kelias valandas. Uždraudus paskyras, tarpinių serverių tinklai jas nedelsiant pakeičia per hidros klasterio architektūras, neturinčias vieno gedimo taško.

Norint įveikti šią grėsmę, reikalingi koordinuoti AI įmonių, debesų paslaugų teikėjų ir politikos formuotojų veiksmai. Anthropic paskelbė savo išvadas, kad įrodymai būtų prieinami visiems, suinteresuotiems apsaugoti pažangiausias AI galimybes nuo neteisėto išgavimo. Įmonė ragina nustatyti visos pramonės masto paskyrų patvirtinimo standartus, bendras grėsmių žvalgybos sistemas ir politinę paramą kovai su didelio masto neteisėtu distiliavimu.