Kaj so napadi z destilacijo umetne inteligence?

Napadi z destilacijo umetne inteligence vključujejo usposabljanje manj zmogljivega modela na izhodih močnejšega modela brez dovoljenja. Tekmovalci ustvarijo ogromne količine skrbno izdelanih pozivov, da bi pridobili specifične zmogljivosti iz mejnega modela, nato pa odzive uporabijo za usposabljanje lastnih sistemov. Anthropic je identificiral več kot 16 milijonov nezakonitih izmenjav prek približno 24.000 lažnih računov, ki so jih DeepSeek, Moonshot in MiniMax uporabljali za pridobivanje zmogljivosti Claude.

Katera podjetja so destilirala zmogljivosti Claude?

Anthropic je identificiral tri kitajske laboratorije za umetno inteligenco, ki so izvajali industrijsko obsežne kampanje destilacije: DeepSeek (več kot 150.000 izmenjav, ki so ciljale na sklepanje in obvode cenzure), Moonshot AI (več kot 3,4 milijona izmenjav, ki so ciljale na agentsko sklepanje in uporabo orodij) ter MiniMax (več kot 13 milijonov izmenjav, ki so ciljale na agentsko kodiranje in orkestracijo orodij).

Zakaj so napadi z destilacijo tveganje za nacionalno varnost?

Nezakonito destilirani modeli nimajo varnostnih zaščit, ki jih ameriška podjetja, kot je Anthropic, vgrajujejo v svoje sisteme. Ti nezaščiteni modeli se lahko uporabljajo za ofenzivne kibernetske operacije, kampanje dezinformacij, množično nadzorovanje in celo podporo razvoju biološkega orožja. Če so destilirani modeli odprtokodni, se nevarne zmogljivosti širijo izven nadzora katerekoli vlade, kar spodkopava izvozni nadzor, zasnovan za ohranjanje ameriške prednosti na področju umetne inteligence.

Kako so DeepSeek, Moonshot in MiniMax dostopali do Claude?

Laboratoriji so obšli regionalne omejitve dostopa Anthropic z uporabo komercialnih posredniških storitev, ki v velikem obsegu preprodajajo dostop do API-ja Claude. Te storitve poganjajo arhitekture 'hidra gruč', ki imajo razvejane mreže lažnih računov, razporejenih po API-ju Anthropic in platformah v oblaku tretjih oseb. Eno posredniško omrežje je hkrati upravljalo več kot 20.000 lažnih računov, pri čemer je promet destilacije mešalo z zakonitimi zahtevami, da bi se izognilo zaznavi.

Kako se Anthropic odziva na napade z destilacijo?

Anthropic uvaja več protinapadov: klasifikatorje vedenjskega prstnega odtisa za zaznavanje vzorcev destilacije v prometu API-ja, izmenjavo obveščevalnih podatkov z drugimi laboratoriji za umetno inteligenco in ponudniki oblačnih storitev, okrepljeno preverjanje računov ter zaščitne ukrepe na ravni modela, ki zmanjšujejo učinkovitost izhoda za nezakonito destilacijo, ne da bi poslabšali storitev za legitimne uporabnike. Anthropic poziva tudi k usklajenim industrijskim in političnim odzivom.

Kaj je DeepSeek specifično pridobil iz Claude?

DeepSeek je ciljal na Claudejeve zmožnosti sklepanja, naloge ocenjevanja na podlagi rubrik (zaradi česar je Claude deloval kot model nagrajevanja za krepitveno učenje) in cenzurno varne alternative politično občutljivim vprašanjem. Uporabili so tehnike, ki so Claude prosile, naj artikulira svoje notranje sklepanje korak za korakom, s čimer so v velikem obsegu ustvarili podatke za usposabljanje 'verige misli'. Anthropic je te račune izsledil do določenih raziskovalcev pri DeepSeeku.

Anthropic razkriva napade z destilacijo s strani DeepSeeka in MiniMaxa

Anthropic razkriva industrijsko obsežne kampanje destilacije

Anthropic je objavil dokaze, da so trije laboratoriji za umetno inteligenco – DeepSeek, Moonshot AI in MiniMax – izvajali usklajene kampanje za pridobivanje zmogljivosti Claude z nezakonito destilacijo. Kampanje so ustvarile več kot 16 milijonov izmenjav s Claude prek približno 24.000 lažnih računov, s čimer so kršile pogoje storitve Anthropic in regionalne omejitve dostopa.

Destilacija je legitimna tehnika, kjer se manjši model usposablja na izhodih močnejšega modela. Mejni laboratoriji redno destilirajo lastne modele, da ustvarijo cenejše različice. Toda ko tekmovalci uporabijo destilacijo brez dovoljenja, pridobijo močne zmogljivosti z delčkom stroškov in časa, potrebnega za neodvisen razvoj.

Napadi so ciljali na najbolj diferencirane funkcije Claude: agentsko sklepanje, uporabo orodij in kodiranje – iste zmogljivosti, ki poganjajo Claude Opus 4.6 in Claude Sonnet 4.6.

Obseg in cilji posamezne kampanje

Laboratorij	Izmenjave	Primarni cilji
DeepSeek	150.000+	Sklepanje, ocenjevanje modela nagrajevanja, obvodi cenzure
Moonshot AI	3,4 milijona+	Agentsko sklepanje, uporaba orodij, računalniški vid
MiniMax	13 milijonov+	Agentsko kodiranje, orkestracija orodij

DeepSeek je uporabil pomembno tehniko: pozive, ki so Claude prosile, naj artikulira svoje notranje sklepanje korak za korakom, s čimer so v velikem obsegu učinkovito ustvarili podatke za usposabljanje 'verige misli'. Claude so uporabili tudi za ustvarjanje cenzurno varnih alternativ politično občutljivim vprašanjem – verjetno zato, da bi svoje modele usposobili za usmerjanje pogovorov stran od cenzuriranih tem. Anthropic je te račune izsledil do določenih raziskovalcev v laboratoriju.

Moonshot AI (modeli Kimi) je uporabil stotine lažnih računov prek več dostopnih poti. V kasnejši fazi se je Moonshot preusmeril na bolj ciljno usmerjen pristop, poskušajoč pridobiti in rekonstruirati Claudejeve sledi sklepanja.

MiniMax je izvedel največjo kampanjo z več kot 13 milijoni izmenjav. Anthropic je to kampanjo zaznal, ko je bila še aktivna – preden je MiniMax izdal model, ki ga je usposabljal. Ko je Anthropic izdal nov model med aktivno kampanjo, se je MiniMax preusmeril v 24 urah, preusmerjajoč skoraj polovico svojega prometa za zajetje najnovejših zmogljivosti.

Kako destilatorji obidejo omejitve dostopa

Anthropic komercialnega dostopa do Claude na Kitajskem ne ponuja zaradi razlogov nacionalne varnosti. Laboratoriji so to obšli z uporabo komercialnih posredniških storitev, ki v velikem obsegu preprodajajo dostop do mejnih modelov.

Te storitve poganjajo, kar Anthropic imenuje arhitekture "hidra gruč": razvejane mreže lažnih računov, ki porazdelijo promet po API-ju in platformah v oblaku tretjih oseb. Ko je en račun blokiran, ga nadomesti nov. Eno posredniško omrežje je hkrati upravljalo več kot 20.000 lažnih računov, pri čemer je promet destilacije mešalo z nepovezanimi zahtevami strank, da bi otežili zaznavanje.

Kar loči destilacijo od običajne uporabe, je vzorec. Posamezen poziv se morda zdi neškodljiv, toda ko se različice pojavijo desettisočkrat prek stotin usklajenih računov, vsi ciljajoč na isto ozko zmogljivost, vzorec postane jasen.

Posledice za nacionalno varnost

Nezakonito destilirani modeli nimajo varnostnih zaščit, ki jih ameriška podjetja vgrajujejo v mejne sisteme. Te zaščite preprečujejo uporabo umetne inteligence za razvoj biološkega orožja, izvajanje ofenzivnih kibernetskih operacij ali omogočanje množičnega nadzora.

Modeli, zgrajeni z nezakonito destilacijo, verjetno ne bodo ohranili teh zaščit. Tuji laboratoriji lahko nezaščitene zmogljivosti vključijo v vojaške, obveščevalne in nadzorne sisteme. Če so destilirani modeli odprtokodni, se nevarne zmogljivosti prosto širijo izven nadzora katerekoli vlade.

Napadi z destilacijo prav tako spodkopavajo ameriški izvozni nadzor. Brez vpogleda v te napade se lahko navidezno hitri napredki teh laboratorijev napačno razlagajo kot dokaz neučinkovitosti izvoznega nadzora. V resnici so napredki odvisni od zmogljivosti, pridobljenih iz ameriških modelov, in izvajanje ekstrakcije v velikem obsegu zahteva napredne čipe, ki jih izvozni nadzor želi omejiti.

Protukrepi podjetja Anthropic

Anthropic uvaja več obramb proti napadom z destilacijo:

Klasifikatorji za zaznavanje: Sistemi vedenjskega prstnega odtisa, ki identificirajo vzorce destilacije v prometu API-ja, vključno z izzivanjem 'verige misli', uporabljenim za izdelavo podatkov za usposabljanje sklepanja
Izmenjava obveščevalnih podatkov: Tehnični indikatorji, deljeni z drugimi laboratoriji za umetno inteligenco, ponudniki oblačnih storitev in ustreznimi organi za celovit pregled nad okoljem destilacije
Kontrole dostopa: Okrepljeno preverjanje za izobraževalne račune, varnostne raziskovalne programe in zagonska podjetja – poti, ki se najpogosteje izkoriščajo
Zaščitni ukrepi na ravni modela: Protukrepi na ravni izdelka, API-ja in modela, zasnovani za zmanjšanje učinkovitosti izhoda za nezakonito destilacijo, ne da bi poslabšali legitimno uporabo

Anthropic je te ugotovitve povezal tudi s svojo prejšnjo podporo zmogljivostim Claude Code Security za obrambo, kar je del širše strategije za zagotavljanje zaščite mejnih zmogljivosti umetne inteligence.

Potreben je odziv celotne industrije

Anthropic poudarja, da nobena posamezna družba ne more sama rešiti napadov z destilacijo. Kampanje izkoriščajo komercialne posredniške storitve, platforme v oblaku tretjih oseb in vrzeli pri preverjanju računov, ki se razprostirajo po celotnem ekosistemu umetne inteligence.

Naraščajoča intenzivnost in prefinjenost teh kampanj zmanjšujeta časovno okno za ukrepanje. Anthropic je opazil, da se destilatorji hitro prilagajajo: ko so izdani novi modeli, se prizadevanja za ekstrakcijo preusmerijo v nekaj urah. Ko so računi blokirani, jih posredniška omrežja takoj nadomestijo prek arhitektur 'hidra gruč' brez ene same točke odpovedi.

Obravnavanje te grožnje zahteva usklajeno delovanje med podjetji za umetno inteligenco, ponudniki oblačnih storitev in oblikovalci politik. Anthropic je objavil svoje ugotovitve, da bi dokaze omogočil vsem, ki imajo interes za zaščito mejnih zmogljivosti umetne inteligence pred nepooblaščeno ekstrakcijo. Podjetje poziva k industrijskim standardom za preverjanje računov, skupnim okvirom za obveščevalne podatke o grožnjah in politični podpori za uveljavljanje proti nezakoniti destilaciji v velikem obsegu.