Çfarë janë sulmet e distilimit të AI?

Sulmet e distilimit të AI përfshijnë trajnimin e një modeli me aftësi më të ulëta mbi rezultatet e një modeli më të fortë pa autorizim. Konkurrentët gjenerojnë vëllime masive kërkesash të formuluara me kujdes për të nxjerrë aftësi specifike nga një model kufitar, dhe më pas përdorin përgjigjet për të trajnuar sistemet e tyre. Anthropic identifikoi mbi 16 milionë shkëmbime të paligjshme përmes afërsisht 24,000 llogarive mashtruese të përdorura nga DeepSeek, Moonshot dhe MiniMax për të nxjerrë aftësitë e Claude.

Cilat kompani distiluan aftësitë e Claude?

Anthropic identifikoi tre laboratorë kinezë të AI që kryenin fushata distilimi në shkallë industriale: DeepSeek (mbi 150,000 shkëmbime që synonin arsyetimin dhe zgjidhjet e censurës), Moonshot AI (mbi 3.4 milionë shkëmbime që synonin arsyetimin agjentik dhe përdorimin e mjeteve), dhe MiniMax (mbi 13 milionë shkëmbime që synonin kodimin agjentik dhe orkestrimin e mjeteve).

Pse sulmet e distilimit janë rrezik për sigurinë kombëtare?

Modelet e distiluara në mënyrë të paligjshme nuk kanë masat mbrojtëse të sigurisë që kompanitë amerikane si Anthropic integrojnë në sistemet e tyre. Këto modele të pambrojtura mund të përdoren për operacione kibernetike ofensive, fushata dezinformimi, mbikëqyrje masive, madje edhe mbështetje për zhvillimin e armëve biologjike. Nëse modelet e distiluara bëhen me burim të hapur, aftësitë e rrezikshme përhapen përtej kontrollit të çdo qeverie të vetme, duke minuar kontrollet e eksportit të krijuara për të ruajtur avantazhin e Amerikës në AI.

Si e aksesuan Claude DeepSeek, Moonshot dhe MiniMax?

Laboratorët anashkaluan kufizimet rajonale të aksesit të Anthropic duke përdorur shërbime proxy komerciale që rishitin aksesin në API të Claude në shkallë të gjerë. Këto shërbime përdorin arkitektura të quajtura 'cluster hidre' me rrjete të gjera llogarish mashtruese të shpërndara në API-në e Anthropic dhe platformat cloud të palëve të treta. Një rrjet proxy menaxhoi më shumë se 20,000 llogari mashtruese njëkohësisht, duke përzier trafikun e distilimit me kërkesa legjitime për të shmangur zbulimin.

Si po i përgjigjet Anthropic sulmeve të distilimit?

Anthropic po vendos kundërmasa të shumta: klasifikues të gjurmëve të sjelljes për të zbuluar modelet e distilimit në trafikun e API-së, ndarje informacioni me laboratorët e tjerë të AI dhe ofruesit e cloud, verifikim të forcuar të llogarive dhe masa mbrojtëse në nivel modeli që reduktojnë efikasitetin e prodhimit për distilimin e paligjshëm pa degraduar shërbimin për përdoruesit legjitimë. Anthropic po kërkon gjithashtu përgjigje të koordinuara nga industria dhe politika.

Çfarë nxori specifikisht DeepSeek nga Claude?

DeepSeek synoi aftësitë e arsyetimit të Claude, detyrat e vlerësimit të bazuar në rubrika (duke bërë që Claude të funksionojë si një model shpërblimi për mësimin me përforcim), dhe alternativa të sigurta nga censura për kërkesa politikisht të ndjeshme. Ata përdorën teknika që kërkonin nga Claude të artikulonte arsyetimin e saj të brendshëm hap pas hapi, duke gjeneruar të dhëna trajnimi të tipit 'zinxhir-mendimi' në shkallë të gjerë. Anthropic gjurmoi këto llogari te studiues specifikë në DeepSeek.

Anthropic ekspozon sulmet e distilimit nga DeepSeek dhe MiniMax

Anthropic zbulon fushata distilimi në shkallë industriale

Anthropic ka publikuar dëshmi se tre laboratorë të AI — DeepSeek, Moonshot AI dhe MiniMax — kryen fushata të koordinuara për të nxjerrë aftësitë e Claude përmes distilimit të paligjshëm. Fushatat gjeneruan mbi 16 milionë shkëmbime me Claude përmes afërsisht 24,000 llogarive mashtruese, duke shkelur kushtet e shërbimit të Anthropic dhe kufizimet rajonale të aksesit.

Distilimi është një teknikë legjitime ku një model më i vogël trajnohet mbi rezultatet e një modeli më të fortë. Laboratorët kufitarë rregullisht distilojnë modelet e tyre për të krijuar versione më të lira. Por kur konkurrentët përdorin distilimin pa autorizim, ata fitojnë aftësi të fuqishme me një fraksion të kostos dhe kohës së nevojshme për zhvillim të pavarur.

Sulmet synuan veçoritë më të diferencuara të Claude: arsyetimin agjentik, përdorimin e mjeteve dhe kodimin — të njëjtat aftësi që fuqizojnë Claude Opus 4.6 dhe Claude Sonnet 4.6.

Shkalla dhe synimet e çdo fushate

Laboratori	Shkëmbime	Synimet Kryesore
DeepSeek	150,000+	Arsyetimi, vlerësimi i modeleve shpërbluese, zgjidhjet e censurës
Moonshot AI	3.4 milionë+	Arsyetimi agjentik, përdorimi i mjeteve, vizioni kompjuterik
MiniMax	13 milionë+	Kodimi agjentik, orkestrimi i mjeteve

DeepSeek përdori një teknikë të rëndësishme: kërkesa që i kërkonin Claude të artikulonte arsyetimin e tij të brendshëm hap pas hapi, duke gjeneruar në mënyrë efektive të dhëna trajnimi të tipit 'zinxhir-mendimi' në shkallë të gjerë. Ata përdorën gjithashtu Claude për të gjeneruar alternativa të sigurta nga censura për kërkesa politikisht të ndjeshme — ndoshta për të trajnuar modelet e tyre që të largojnë bisedat nga temat e censuruara. Anthropic gjurmoi këto llogari te studiues specifikë në laborator.

Moonshot AI (modelet Kimi) përdori qindra llogari mashtruese përmes rrugëve të shumta të aksesit. Në një fazë të mëvonshme, Moonshot kaloi në një qasje më të synuar, duke u përpjekur të nxjerrë dhe rindërtojë gjurmët e arsyetimit të Claude.

MiniMax zhvilloi fushatën më të madhe me mbi 13 milionë shkëmbime. Anthropic e zbuloi këtë fushatë ndërsa ishte ende aktive — përpara se MiniMax të lëshonte modelin që po trajnonte. Kur Anthropic lëshoi një model të ri gjatë fushatës aktive, MiniMax u kthye brenda 24 orëve, duke ridrejtuar pothuajse gjysmën e trafikut të tyre për të kapur aftësitë më të fundit.

Si i anashkalojnë distiluesit kufizimet e aksesit

Anthropic nuk ofron akses komercial në Claude në Kinë për arsye të sigurisë kombëtare. Laboratorët e anashkaluan këtë përmes shërbimeve proxy komerciale që rishitin aksesin në modelin kufitar në shkallë të gjerë.

Këto shërbime përdorin ato që Anthropic i quan arkitektura 'cluster hidre': rrjete të gjera llogarish mashtruese që shpërndajnë trafikun nëpër API dhe platformat cloud të palëve të treta. Kur një llogari ndalohet, një e re e zëvendëson atë. Një rrjet proxy menaxhoi më shumë se 20,000 llogari mashtruese njëkohësisht, duke përzier trafikun e distilimit me kërkesa të palidhura të klientëve për ta bërë zbulimin më të vështirë.

Ajo që e dallon distilimin nga përdorimi normal është modeli. Një kërkesë e vetme mund të duket e padëmshme, por kur variantet mbërrijnë dhjetëra mijëra herë nëpër qindra llogari të koordinuara, të gjitha duke synuar të njëjtën aftësi të ngushtë, modeli bëhet i qartë.

Implikimet për Sigurinë Kombëtare

Modelet e distiluara në mënyrë të paligjshme nuk kanë masat mbrojtëse të sigurisë që kompanitë amerikane integrojnë në sistemet kufitare. Këto masa mbrojtëse parandalojnë përdorimin e AI për të zhvilluar armë biologjike, për të kryer operacione kibernetike ofensive, ose për të mundësuar mbikëqyrje masive.

Modelet e ndërtuara përmes distilimit të paligjshëm ka të ngjarë të mos ruajnë ato mbrojtje. Laboratorët e huaj mund të ushqejnë aftësi të pambrojtura në sistemet ushtarake, të inteligjencës dhe të mbikëqyrjes. Nëse modelet e distiluara bëhen me burim të hapur, aftësitë e rrezikshme përhapen lirshëm përtej kontrollit të çdo qeverie.

Sulmet e distilimit minojnë gjithashtu kontrollet e eksportit të SHBA-së. Pa transparencë mbi këto sulme, përparimet dukshëm të shpejta nga këta laboratorë mund të interpretohen gabimisht si dëshmi se kontrollet e eksportit janë joefektive. Në realitet, përparimet varen nga aftësitë e nxjerra nga modelet amerikane, dhe kryerja e nxjerrjes në shkallë të gjerë kërkon çipat e avancuar që kontrollet e eksportit janë krijuar për të kufizuar.

Kundërmasat e Anthropic

Anthropic po vendos kundërmasa të shumta kundër sulmeve të distilimit:

Klasifikues të zbulimit: Sisteme të gjurmëve të sjelljes që identifikojnë modelet e distilimit në trafikun e API-së, duke përfshirë nxjerrjen 'zinxhir-mendimi' të përdorur për të ndërtuar të dhëna trajnimi të arsyetimit
Ndarja e inteligjencës: Tregues teknikë të ndarë me laboratorët e tjerë të AI, ofruesit e cloud dhe autoritetet përkatëse për një pamje holistike të peizazhit të distilimit
Kontrollet e aksesit: Verifikim i forcuar për llogaritë edukative, programet e kërkimit të sigurisë dhe organizatat startup — rrugët më shpesh të shfrytëzuara
Masa mbrojtëse në nivel modeli: Kundërmasa në nivel produkti, API dhe modeli, të dizajnuara për të reduktuar efikasitetin e prodhimit për distilimin e paligjshëm pa degraduar përdorimin legjitim

Anthropic ka lidhur gjithashtu këto zbulime me mbështetjen e saj të mëparshme për aftësitë e Sigurisë së Kodit Claude për mbrojtësit, pjesë e një strategjie më të gjerë për të siguruar që aftësitë kufitare të AI të mbeten të mbrojtura.

Nevojitet një Përgjigje në Shkallë Industriale

Anthropic thekson se asnjë kompani e vetme nuk mund t'i zgjidhë sulmet e distilimit vetëm. Fushatat shfrytëzojnë shërbimet proxy komerciale, platformat cloud të palëve të treta dhe boshllëqet në verifikimin e llogarive që shtrihen në të gjithë ekosistemin e AI.

Intensiteti dhe sofistikimi në rritje i këtyre fushatave ngushton dritaren për të vepruar. Anthropic ka vënë re se distiluesit përshtaten shpejt: kur lëshohen modele të reja, përpjekjet e nxjerrjes ndryshojnë brenda orësh. Kur llogaritë ndalohen, rrjetet proxy i zëvendësojnë ato menjëherë përmes arkitekturave të tipit 'cluster hidre' pa asnjë pikë të vetme dështimi.

Adresimi i kërcënimit kërkon veprim të koordinuar midis kompanive të AI, ofruesve të cloud dhe politikëbërësve. Anthropic publikoi gjetjet e saj për t'i bërë provat të disponueshme për të gjithë ata që kanë interes në mbrojtjen e aftësive kufitare të AI nga nxjerrja e paautorizuar. Kompania po bën thirrje për standarde në nivel industrie për verifikimin e llogarive, korniza të përbashkëta të inteligjencës së kërcënimeve dhe mbështetje politikash për zbatimin kundër distilimit të paligjshëm në shkallë të gjerë.