Anthropic razkriva industrijsko obsežne kampanje destilacije
Anthropic je objavil dokaze, da so trije laboratoriji za umetno inteligenco – DeepSeek, Moonshot AI in MiniMax – izvajali usklajene kampanje za pridobivanje zmogljivosti Claude z nezakonito destilacijo. Kampanje so ustvarile več kot 16 milijonov izmenjav s Claude prek približno 24.000 lažnih računov, s čimer so kršile pogoje storitve Anthropic in regionalne omejitve dostopa.
Destilacija je legitimna tehnika, kjer se manjši model usposablja na izhodih močnejšega modela. Mejni laboratoriji redno destilirajo lastne modele, da ustvarijo cenejše različice. Toda ko tekmovalci uporabijo destilacijo brez dovoljenja, pridobijo močne zmogljivosti z delčkom stroškov in časa, potrebnega za neodvisen razvoj.
Napadi so ciljali na najbolj diferencirane funkcije Claude: agentsko sklepanje, uporabo orodij in kodiranje – iste zmogljivosti, ki poganjajo Claude Opus 4.6 in Claude Sonnet 4.6.
Obseg in cilji posamezne kampanje
| Laboratorij | Izmenjave | Primarni cilji |
|---|---|---|
| DeepSeek | 150.000+ | Sklepanje, ocenjevanje modela nagrajevanja, obvodi cenzure |
| Moonshot AI | 3,4 milijona+ | Agentsko sklepanje, uporaba orodij, računalniški vid |
| MiniMax | 13 milijonov+ | Agentsko kodiranje, orkestracija orodij |
DeepSeek je uporabil pomembno tehniko: pozive, ki so Claude prosile, naj artikulira svoje notranje sklepanje korak za korakom, s čimer so v velikem obsegu učinkovito ustvarili podatke za usposabljanje 'verige misli'. Claude so uporabili tudi za ustvarjanje cenzurno varnih alternativ politično občutljivim vprašanjem – verjetno zato, da bi svoje modele usposobili za usmerjanje pogovorov stran od cenzuriranih tem. Anthropic je te račune izsledil do določenih raziskovalcev v laboratoriju.
Moonshot AI (modeli Kimi) je uporabil stotine lažnih računov prek več dostopnih poti. V kasnejši fazi se je Moonshot preusmeril na bolj ciljno usmerjen pristop, poskušajoč pridobiti in rekonstruirati Claudejeve sledi sklepanja.
MiniMax je izvedel največjo kampanjo z več kot 13 milijoni izmenjav. Anthropic je to kampanjo zaznal, ko je bila še aktivna – preden je MiniMax izdal model, ki ga je usposabljal. Ko je Anthropic izdal nov model med aktivno kampanjo, se je MiniMax preusmeril v 24 urah, preusmerjajoč skoraj polovico svojega prometa za zajetje najnovejših zmogljivosti.
Kako destilatorji obidejo omejitve dostopa
Anthropic komercialnega dostopa do Claude na Kitajskem ne ponuja zaradi razlogov nacionalne varnosti. Laboratoriji so to obšli z uporabo komercialnih posredniških storitev, ki v velikem obsegu preprodajajo dostop do mejnih modelov.
Te storitve poganjajo, kar Anthropic imenuje arhitekture "hidra gruč": razvejane mreže lažnih računov, ki porazdelijo promet po API-ju in platformah v oblaku tretjih oseb. Ko je en račun blokiran, ga nadomesti nov. Eno posredniško omrežje je hkrati upravljalo več kot 20.000 lažnih računov, pri čemer je promet destilacije mešalo z nepovezanimi zahtevami strank, da bi otežili zaznavanje.
Kar loči destilacijo od običajne uporabe, je vzorec. Posamezen poziv se morda zdi neškodljiv, toda ko se različice pojavijo desettisočkrat prek stotin usklajenih računov, vsi ciljajoč na isto ozko zmogljivost, vzorec postane jasen.
Posledice za nacionalno varnost
Nezakonito destilirani modeli nimajo varnostnih zaščit, ki jih ameriška podjetja vgrajujejo v mejne sisteme. Te zaščite preprečujejo uporabo umetne inteligence za razvoj biološkega orožja, izvajanje ofenzivnih kibernetskih operacij ali omogočanje množičnega nadzora.
Modeli, zgrajeni z nezakonito destilacijo, verjetno ne bodo ohranili teh zaščit. Tuji laboratoriji lahko nezaščitene zmogljivosti vključijo v vojaške, obveščevalne in nadzorne sisteme. Če so destilirani modeli odprtokodni, se nevarne zmogljivosti prosto širijo izven nadzora katerekoli vlade.
Napadi z destilacijo prav tako spodkopavajo ameriški izvozni nadzor. Brez vpogleda v te napade se lahko navidezno hitri napredki teh laboratorijev napačno razlagajo kot dokaz neučinkovitosti izvoznega nadzora. V resnici so napredki odvisni od zmogljivosti, pridobljenih iz ameriških modelov, in izvajanje ekstrakcije v velikem obsegu zahteva napredne čipe, ki jih izvozni nadzor želi omejiti.
Protukrepi podjetja Anthropic
Anthropic uvaja več obramb proti napadom z destilacijo:
- Klasifikatorji za zaznavanje: Sistemi vedenjskega prstnega odtisa, ki identificirajo vzorce destilacije v prometu API-ja, vključno z izzivanjem 'verige misli', uporabljenim za izdelavo podatkov za usposabljanje sklepanja
- Izmenjava obveščevalnih podatkov: Tehnični indikatorji, deljeni z drugimi laboratoriji za umetno inteligenco, ponudniki oblačnih storitev in ustreznimi organi za celovit pregled nad okoljem destilacije
- Kontrole dostopa: Okrepljeno preverjanje za izobraževalne račune, varnostne raziskovalne programe in zagonska podjetja – poti, ki se najpogosteje izkoriščajo
- Zaščitni ukrepi na ravni modela: Protukrepi na ravni izdelka, API-ja in modela, zasnovani za zmanjšanje učinkovitosti izhoda za nezakonito destilacijo, ne da bi poslabšali legitimno uporabo
Anthropic je te ugotovitve povezal tudi s svojo prejšnjo podporo zmogljivostim Claude Code Security za obrambo, kar je del širše strategije za zagotavljanje zaščite mejnih zmogljivosti umetne inteligence.
Potreben je odziv celotne industrije
Anthropic poudarja, da nobena posamezna družba ne more sama rešiti napadov z destilacijo. Kampanje izkoriščajo komercialne posredniške storitve, platforme v oblaku tretjih oseb in vrzeli pri preverjanju računov, ki se razprostirajo po celotnem ekosistemu umetne inteligence.
Naraščajoča intenzivnost in prefinjenost teh kampanj zmanjšujeta časovno okno za ukrepanje. Anthropic je opazil, da se destilatorji hitro prilagajajo: ko so izdani novi modeli, se prizadevanja za ekstrakcijo preusmerijo v nekaj urah. Ko so računi blokirani, jih posredniška omrežja takoj nadomestijo prek arhitektur 'hidra gruč' brez ene same točke odpovedi.
Obravnavanje te grožnje zahteva usklajeno delovanje med podjetji za umetno inteligenco, ponudniki oblačnih storitev in oblikovalci politik. Anthropic je objavil svoje ugotovitve, da bi dokaze omogočil vsem, ki imajo interes za zaščito mejnih zmogljivosti umetne inteligence pred nepooblaščeno ekstrakcijo. Podjetje poziva k industrijskim standardom za preverjanje računov, skupnim okvirom za obveščevalne podatke o grožnjah in politični podpori za uveljavljanje proti nezakoniti destilaciji v velikem obsegu.
Pogosta vprašanja
Kaj so napadi z destilacijo umetne inteligence?
Katera podjetja so destilirala zmogljivosti Claude?
Zakaj so napadi z destilacijo tveganje za nacionalno varnost?
Kako so DeepSeek, Moonshot in MiniMax dostopali do Claude?
Kako se Anthropic odziva na napade z destilacijo?
Kaj je DeepSeek specifično pridobil iz Claude?
Bodite na tekočem
Prejemajte najnovejše AI novice po e-pošti.
