Mis on AI destilleerimisrünnakud?

AI destilleerimisrünnakud hõlmavad vähem võimeka mudeli treenimist tugevama mudeli väljundite põhjal ilma loata. Konkurendid genereerivad tohutul hulgal hoolikalt koostatud vihjeid, et ammutada piirimudelist spetsiifilisi võimeid, ja kasutavad seejärel vastuseid oma süsteemide treenimiseks. Anthropic tuvastas üle 16 miljoni ebaseadusliku vahetuse umbes 24 000 petturliku konto kaudu, mida kasutasid DeepSeek, Moonshot ja MiniMax Claude'i võimete ammutamiseks.

Millised ettevõtted destilleerisid Claude'i võimeid?

Anthropic tuvastas kolm Hiina AI laboratooriumi, mis viisid läbi tööstusliku ulatusega destilleerimiskampaaniaid: DeepSeek (üle 150 000 vahetuse, mis keskendusid arutlemisele ja tsensuuri möödaminekule), Moonshot AI (üle 3,4 miljoni vahetuse, mis keskendusid agentsele arutlemisele ja tööriistade kasutamisele) ja MiniMax (üle 13 miljoni vahetuse, mis keskendusid agentsele kodeerimisele ja tööriistade orkestratsioonile).

Miks on destilleerimisrünnakud riikliku julgeoleku risk?

Ebaseaduslikult destilleeritud mudelitel puuduvad ohutuspiirded, mida USA ettevõtted nagu Anthropic oma süsteemidesse ehitavad. Neid kaitsmata mudeleid saab kasutada ründavateks küberoperatsioonideks, desinformatsioonikampaaniateks, massiliseks jälgimiseks ja isegi biorelva arendamise toetamiseks. Kui destilleeritud mudelid avaldatakse avatud lähtekoodiga, levivad ohtlikud võimed väljaspool ühegi valitsuse kontrolli, õõnestades ekspordikontrolle, mis on loodud Ameerika AI eelise säilitamiseks.

Kuidas DeepSeek, Moonshot ja MiniMax Claude'ile ligi pääsesid?

Laboratooriumid möödusid Anthropicu piirkondlikest juurdepääsupiirangutest, kasutades kommertsproksiteenuseid, mis edasimüüsid Claude'i API juurdepääsu suurel skaalal. Need teenused käitavad hüdra-klastri arhitektuure laiaulatuslike petturlike kontode võrgustikega, mis on jaotatud Anthropicu API ja kolmandate osapoolte pilveplatvormide vahel. Üks proksivõrk haldas samaaegselt rohkem kui 20 000 petturlikku kontot, segades destilleerimisliikluse legitiimsete päringutega, et vältida tuvastamist.

Kuidas Anthropic destilleerimisrünnakutele reageerib?

Anthropic võtab kasutusele mitmeid vastumeetmeid: käitumuslikud sõrmejälgede klassifikaatorid, et tuvastada destilleerimismustreid API liikluses; luureandmete jagamine teiste AI laborite ja pilveteenuste pakkujatega; tugevdatud kontode kinnitamine; ja mudelitasandi kaitsemeetmed, mis vähendavad ebaseadusliku destilleerimise väljundi efektiivsust, kahjustamata samal ajal legitiimsete kasutajate teenust. Anthropic kutsub üles ka koordineeritud tööstuse ja poliitika vastustele.

Mida DeepSeek konkreetselt Claude'ist ekstraheeris?

DeepSeek sihtis Claude'i arutlemisvõimeid, hindamismaatriksipõhiseid hindamisülesandeid (pannes Claude'i toimima tugevdamisõppe premeerimismudelina) ja tsensuurikindlaid alternatiive poliitiliselt tundlikele päringutele. Nad kasutasid tehnikaid, mis palusid Claude'il oma sisemist arutluskäiku samm-sammult sõnastada, genereerides suurel hulgal mõttekäikude treeningandmeid. Anthropic jälgis need kontod DeepSeeki konkreetsete teadlaste juurde.

Anthropic paljastab DeepSeeki ja MiniMaxi destilleerimisrünnakud

Anthropic paljastab tööstusliku ulatusega destilleerimiskampaaniad

Anthropic on avaldanud tõendeid, et kolm AI laboratooriumi – DeepSeek, Moonshot AI ja MiniMax – viisid läbi koordineeritud kampaaniaid, et ammutada Claude'i võimeid ebaseadusliku destilleerimise teel. Kampaaniate käigus loodi Claude'iga üle 16 miljoni vahetuse ligikaudu 24 000 petturliku konto kaudu, rikkudes Anthropicu teenusetingimusi ja piirkondlikke juurdepääsupiiranguid.

Destilleerimine on legitiimne tehnika, kus väiksemat mudelit treenitakse tugevama mudeli väljundite põhjal. Piirilaboratooriumid destilleerivad regulaarselt oma mudeleid, et luua odavamaid versioone. Kuid kui konkurendid kasutavad destilleerimist ilma loata, omandavad nad võimsad võimed murdosa hinnaga ja ajaga, mis oleks vajalik iseseisvaks arenduseks.

Rünnakud sihtisid Claude'i kõige eristuvamaid funktsioone: agentne arutlemine, tööriistade kasutamine ja kodeerimine – samad võimed, mis annavad jõudu Claude Opus 4.6 ja Claude Sonnet 4.6.

Iga kampaania ulatus ja sihtmärgid

Laboratoorium	Vahetused	Peamised sihtmärgid
DeepSeek	150 000+	Arutlemine, premeerimismudeli hindamine, tsensuuri möödaminek
Moonshot AI	3,4 miljonit+	Agentne arutlemine, tööriistade kasutamine, arvutinägemine
MiniMax	13 miljonit+	Agentne kodeerimine, tööriistade orkestratsioon

DeepSeek kasutas märkimisväärset tehnikat: vihjeid, mis palusid Claude'il oma sisemist arutluskäiku samm-sammult sõnastada, genereerides seega suurel hulgal mõttekäikude treeningandmeid. Nad kasutasid Claude'i ka tsensuurikindlate alternatiivide genereerimiseks poliitiliselt tundlikele päringutele – tõenäoliselt selleks, et treenida oma mudeleid vestlusi tsenseeritud teemadest eemale juhtima. Anthropic jälgis need kontod labori konkreetsete teadlaste juurde.

Moonshot AI (Kimi mudelid) kasutas sadu petturlikke kontosid mitme juurdepääsutee kaudu. Hilisemas faasis nihkus Moonshot sihipärasemale lähenemisele, püüdes ekstraheerida ja rekonstrueerida Claude'i arutluskäikude jälgi.

MiniMax viis läbi suurima kampaania üle 13 miljoni vahetusega. Anthropic tuvastas selle kampaania veel aktiivsena – enne, kui MiniMax oma treenitava mudeli avaldas. Kui Anthropic avaldas aktiivse kampaania ajal uue mudeli, pöördus MiniMax 24 tunni jooksul ümber, suunates peaaegu poole oma liiklusest ümber, et jäädvustada uusimad võimed.

Kuidas destilleerijad juurdepääsupiirangutest mööda pääsevad

Anthropic ei paku Claude'ile ärilist juurdepääsu Hiinas riikliku julgeoleku kaalutlustel. Laboratooriumid möödusid sellest kommertsproksiteenuste kaudu, mis edasimüüsid piirimudelite juurdepääsu suurel skaalal.

Need teenused käitavad seda, mida Anthropic nimetab "hüdra-klastri" arhitektuurideks: laiaulatuslikud petturlike kontode võrgustikud, mis jaotavad liiklust API ja kolmandate osapoolte pilveplatvormide vahel. Kui üks konto keelatakse, asendab selle uus. Üks proksivõrk haldas samaaegselt rohkem kui 20 000 petturlikku kontot, segades destilleerimisliikluse mitteseotud kliendipäringutega, et tuvastamist raskendada.

Mis eristab destilleerimist tavalisest kasutusest, on muster. Üksik vihje võib tunduda kahjutu, kuid kui variatsioonid saabuvad kümneid tuhandeid kordi sadade koordineeritud kontode kaudu, mis kõik sihivad sama kitsast võimet, muutub muster selgeks.

Riikliku julgeoleku tagajärjed

Ebaseaduslikult destilleeritud mudelitel puuduvad ohutuspiirded, mida USA ettevõtted piirisüsteemidesse ehitavad. Need piirded takistavad AI kasutamist biorelva arendamiseks, ründavate küberoperatsioonide läbiviimiseks või massiliseks jälgimiseks.

Ebaseadusliku destilleerimise teel ehitatud mudelid ei säilita tõenäoliselt neid kaitsemehhanisme. Välisriikide laborid saavad sööta kaitsmata võimeid sõjaväe-, luure- ja jälgimissüsteemidesse. Kui destilleeritud mudelid avaldatakse avatud lähtekoodiga, levivad ohtlikud võimed vabalt väljaspool ühegi valitsuse kontrolli.

Destilleerimisrünnakud õõnestavad ka USA ekspordikontrolle. Ilma nende rünnakute nähtavuseta võivad nende laborite ilmselt kiired edusammud olla valesti tõlgendatud tõendina ekspordikontrolli ebaefektiivsusest. Tegelikkuses sõltuvad edusammud Ameerika mudelitest ekstraheeritud võimetest ja ekstraheerimise teostamine suurel skaalal nõuab täiustatud kiipe, mida ekspordikontrollid on loodud piirama.

Anthropicu vastumeetmed

Anthropic võtab kasutusele mitmeid kaitsemehhanisme destilleerimisrünnakute vastu:

Tuvastamise klassifikaatorid: Käitumuslikud sõrmejälgede süsteemid, mis tuvastavad destilleerimismustreid API liikluses, sealhulgas mõttekäikude esilekutsumine, mida kasutatakse arutluskäikude treeningandmete koostamiseks
Luureandmete jagamine: Tehnilised näitajad, mida jagatakse teiste AI laborite, pilveteenuste pakkujate ja asjakohaste ametiasutustega, et saada terviklik pilt destilleerimisest
Juurdepääsukontrollid: Tugevdatud kontroll hariduskontodele, turvauuringute programmidele ja iduettevõtetele – kõige sagedamini ärakasutatud teed
Mudelitasandi kaitsemeetmed: Toote-, API- ja mudelitasandi vastumeetmed, mis on loodud ebaseadusliku destilleerimise väljundi efektiivsuse vähendamiseks, kahjustamata samal ajal legitiimset kasutust

Anthropic on neid leide seostanud ka oma varasema toetusega Claude Code Security võimekusele kaitsjate jaoks, mis on osa laiemast strateegiast tagamaks, et piirimudeli AI võimed jääksid kaitstuks.

Vajalik on kogu tööstusharu hõlmav vastus

Anthropic rõhutab, et ükski ettevõte ei suuda destilleerimisrünnakuid üksi lahendada. Kampaaniad kasutavad ära kommertsproksiteenuseid, kolmandate osapoolte pilveplatvorme ja lünki kontode kinnitamisel, mis ulatuvad üle kogu AI ökosüsteemi.

Nende kampaaniate kasvav intensiivsus ja keerukus ahendab tegutsemisvõimalusi. Anthropic on täheldanud, et destilleerijad kohanevad kiiresti: uute mudelite avaldamisel muutuvad ekstraheerimispüüdlused tundide jooksul. Kontode keelustamisel asendavad proksivõrgustikud need koheselt hüdra-klastri arhitektuuride kaudu, millel puudub üksik rikkepunkt.

Ohu lahendamine nõuab koordineeritud tegevust AI ettevõtete, pilveteenuste pakkujate ja poliitikakujundajate vahel. Anthropic avaldas oma leiud, et teha tõendid kättesaadavaks kõigile, kellel on huvi kaitsta piirimudelite AI võimeid volitamata ekstraheerimise eest. Ettevõte kutsub üles kehtestama tööstusharuüleseid standardeid kontode kinnitamisel, jagatud ohuteabe raamistikele ja poliitilisele toele ebaseadusliku destilleerimise vastu võitlemiseks suures ulatuses.