Anthropic atskleidžia pramoninio masto distiliavimo kampanijas
Anthropic paskelbė įrodymus, kad trys AI laboratorijos – DeepSeek, Moonshot AI ir MiniMax – vykdė koordinuotas kampanijas, skirtas išgauti Claude galimybes neteisėtu distiliavimu. Kampanijų metu per maždaug 24 000 sukčių paskyrų buvo įvykdyta daugiau nei 16 milijonų mainų su Claude, pažeidžiant Anthropic paslaugų teikimo sąlygas ir regioninius prieigos apribojimus.
Distiliavimas yra teisėta technika, kai mažesnis modelis apmokomas naudojant stipresnio modelio išvestis. Pažangiausios laboratorijos reguliariai distiliuoja savo modelius, kad sukurtų pigesnes versijas. Tačiau kai konkurentai naudoja distiliavimą be leidimo, jie įgyja galingas galimybes už dalį kainos ir laiko, reikalingo savarankiškam kūrimui.
Atakos buvo nukreiptos į labiausiai išskirtines Claude savybes: agentinį samprotavimą, įrankių naudojimą ir kodavimą – tas pačias galimybes, kurios varo Claude Opus 4.6 ir Claude Sonnet 4.6.
Kiekvienos kampanijos mastas ir tikslai
| Laboratorija | Mainai | Pagrindiniai tikslai |
|---|---|---|
| DeepSeek | 150 000+ | Samprotavimas, atlygio modelio vertinimas, cenzūros apėjimai |
| Moonshot AI | 3,4 milijonai+ | Agentinis samprotavimas, įrankių naudojimas, kompiuterinė rega |
| MiniMax | 13 milijonų+ | Agentinis kodavimas, įrankių orkestravimas |
DeepSeek naudojo pastebimą techniką: užklausas, kurios prašė Claude išdėstyti savo vidinius samprotavimus žingsnis po žingsnio, efektyviai generuojant didelio masto „minčių grandinės“ (chain-of-thought) mokymo duomenis. Jie taip pat naudojo Claude generuoti cenzūrai atsparias alternatyvas politiškai jautriems klausimams – tikriausiai siekdami apmokyti savo modelius nukreipti pokalbius nuo cenzūruotų temų. Anthropic šias paskyras atsekė iki konkrečių laboratorijos tyrėjų.
Moonshot AI (Kimi modeliai) pasitelkė šimtus sukčių paskyrų per kelis prieigos kelius. Vėlesniame etape Moonshot perėjo prie tikslesnio požiūrio, bandydami išgauti ir atkurti Claude samprotavimo pėdsakus.
MiniMax vykdė didžiausią kampaniją, kurios metu įvyko daugiau nei 13 milijonų mainų. Anthropic aptiko šią kampaniją, kol ji dar buvo aktyvi – prieš MiniMax išleidžiant modelį, kurį jie apmokė. Kai Anthropic išleido naują modelį aktyvios kampanijos metu, MiniMax per 24 valandas pakeitė savo kryptį, nukreipdami beveik pusę savo srauto, kad užfiksuotų naujausias galimybes.
Kaip distiliuotojai apeina prieigos apribojimus
Anthropic nesiūlo komercinės prieigos prie Claude Kinijoje dėl nacionalinio saugumo priežasčių. Laboratorijos tai apėjo naudodamos komercines tarpines paslaugas, kurios dideliu mastu perparduoda prieigą prie pažangiųjų modelių.
Šios paslaugos naudoja tai, ką Anthropic vadina „hidros klasterio“ architektūromis: išsiplėtusius sukčių paskyrų tinklus, kurie paskirsto srautą per API ir trečiųjų šalių debesų platformas. Kai viena paskyra užblokuojama, ją pakeičia nauja. Vienas tarpinių serverių tinklas vienu metu valdė daugiau nei 20 000 sukčių paskyrų, maišydamas distiliavimo srautą su nesusijusiais klientų prašymais, kad būtų sunkiau aptikti.
Tai, kas distiliavimą skiria nuo įprasto naudojimo, yra modelis. Viena užklausa gali atrodyti nepavojinga, tačiau kai dešimtys tūkstančių variacijų atkeliauja per šimtus koordinuotų paskyrų, visos nukreiptos į tą pačią siaurą galimybę, modelis tampa aiškus.
Nacionalinio saugumo pasekmės
Neteisėtai distiliuoti modeliai neturi saugumo priemonių, kurias JAV įmonės įdiegia į pažangiausias sistemas. Šios apsaugos priemonės neleidžia dirbtiniam intelektui būti naudojamam biologiniams ginklams kurti, puolamosioms kibernetinėms operacijoms vykdyti ar masiniam sekimui.
Modeliai, sukurti neteisėto distiliavimo būdu, vargu ar išlaikys tas apsaugos priemones. Užsienio laboratorijos gali perduoti neapsaugotas galimybes karinėms, žvalgybos ir stebėjimo sistemoms. Jei distiliuoti modeliai tampa atvirojo kodo, pavojingos galimybės laisvai plinta už bet kurios vyriausybės kontrolės ribų.
Distiliavimo atakos taip pat kenkia JAV eksporto kontrolei. Nesant šių atakų matomumo, tariamai spartūs šių laboratorijų pasiekimai gali būti neteisingai interpretuojami kaip įrodymas, kad eksporto kontrolė yra neveiksminga. Iš tikrųjų pasiekimai priklauso nuo galimybių, išgautų iš Amerikos modelių, o didelio masto išgavimui reikia pažangių mikroschemų, kurių eksporto kontrolės priemonės yra skirtos apriboti.
Anthropic atsako priemonės
Anthropic diegia daugybę gynybos priemonių nuo distiliavimo atakų:
- Aptikimo klasifikatoriai: Elgsenos atpažinimo sistemos, kurios identifikuoja distiliavimo modelius API sraute, įskaitant „minčių grandinės“ išgavimą, naudojamą samprotavimo mokymo duomenims sudaryti.
- Dalijimasis žvalgybine informacija: Techniniai rodikliai, dalijamasi su kitomis AI laboratorijomis, debesų paslaugų teikėjais ir atitinkamomis institucijomis, siekiant gauti visapusišką distiliavimo aplinkos vaizdą.
- Prieigos kontrolė: Sustiprintas švietimo paskyrų, saugumo tyrimų programų ir startuolių organizacijų patvirtinimas – dažniausiai išnaudojami keliai.
- Modelio lygio apsaugos priemonės: Produkto, API ir modelio lygio priešpriešinės priemonės, skirtos sumažinti išvesties efektyvumą neteisėtam distiliavimui, nepabloginant teisėto naudojimo.
Anthropic taip pat susiejo šias išvadas su ankstesne parama Claude Code Security galimybėms gynėjams, kas yra platesnės strategijos dalis, siekiant užtikrinti, kad pažangiausios AI galimybės liktų apsaugotos.
Reikalingas visos pramonės atsakas
Anthropic pabrėžia, kad jokia atskira įmonė negali viena pati išspręsti distiliavimo atakų problemos. Kampanijos išnaudoja komercines tarpines paslaugas, trečiųjų šalių debesų platformas ir paskyrų patvirtinimo spragas, apimančias visą AI ekosistemą.
Didėjantis šių kampanijų intensyvumas ir sudėtingumas siaurina veiksmų langą. Anthropic pastebėjo, kad distiliuotojai greitai prisitaiko: išleidus naujus modelius, išgavimo pastangos keičiasi per kelias valandas. Uždraudus paskyras, tarpinių serverių tinklai jas nedelsiant pakeičia per hidros klasterio architektūras, neturinčias vieno gedimo taško.
Norint įveikti šią grėsmę, reikalingi koordinuoti AI įmonių, debesų paslaugų teikėjų ir politikos formuotojų veiksmai. Anthropic paskelbė savo išvadas, kad įrodymai būtų prieinami visiems, suinteresuotiems apsaugoti pažangiausias AI galimybes nuo neteisėto išgavimo. Įmonė ragina nustatyti visos pramonės masto paskyrų patvirtinimo standartus, bendras grėsmių žvalgybos sistemas ir politinę paramą kovai su didelio masto neteisėtu distiliavimu.
Originalus šaltinis
https://www.anthropic.com/news/detecting-and-preventing-distillation-attacksDažniausiai užduodami klausimai
Kas yra AI distiliavimo atakos?
Kurios įmonės distiliavo Claude galimybes?
Kodėl distiliavimo atakos kelia nacionalinio saugumo riziką?
Kaip DeepSeek, Moonshot ir MiniMax gavo prieigą prie Claude?
Kaip Anthropic reaguoja į distiliavimo atakas?
Ką konkrečiai DeepSeek išgavo iš Claude?
Būkite informuoti
Gaukite naujausias AI naujienas el. paštu.
