Hvað eru eimingarárásir á gervigreind?

Eimingarárásir á gervigreind fela í sér að þjálfa ófullkomnara líkan með úttakum sterkara líkans án leyfis. Keppendur búa til gríðarlegt magn af vandlega samsettum leiðbeiningum til að ná fram sérstakri getu úr framsæknu líkani, og nota síðan svörin til að þjálfa sín eigin kerfi. Anthropic greindi yfir 16 milljónir ólöglegra samskipta yfir um það bil 24.000 sviksamlegra reikninga sem DeepSeek, Moonshot og MiniMax notuðu til að ná fram getu Claude.

Hvaða fyrirtæki eimuðu getu Claude?

Anthropic greindi þrjár kínverskar gervigreindarstofur sem stóðu fyrir eimingarherferðum á iðnaðarstigi: DeepSeek (yfir 150.000 samskipti sem miðuðu að rökhugsun og framhjáhöldum ritskoðunar), Moonshot AI (yfir 3,4 milljónir samskipta sem miðuðu að sjálfvirkri rökhugsun og tólanotkun), og MiniMax (yfir 13 milljónir samskipta sem miðuðu að sjálfvirkri kóðun og samræmingu tækja).

Hvers vegna eru eimingarárásir áhætta fyrir þjóðaröryggi?

Ólöglega eimuð líkön skortir þær öryggisráðstafanir sem bandarísk fyrirtæki eins og Anthropic byggja inn í kerfi sín. Þessi óvarðu líkön geta verið notuð fyrir árásargjarnar netárásir, upplýsingaherferðir, fjöldaeftirlit og jafnvel stuðning við þróun lífefnavopna. Ef eimuð líkön eru gefin út sem opinn hugbúnaður, dreifast hættuleg geta út fyrir stjórn nokkurrar ríkisstjórnar, sem grefur undan útflutningshöftum sem ætlað er að viðhalda forskoti Bandaríkjanna í gervigreind.

Hvernig fengu DeepSeek, Moonshot og MiniMax aðgang að Claude?

Rannsóknarstofurnar fóru framhjá svæðisbundnum aðgangshöftum Anthropic með því að nota viðskiptahugbúnaðarþjónustu sem selur Claude API aðgang í miklu magni. Þessar þjónustur reka svokallaðar "hydra cluster" arkitektúr með útbreiddum netum sviksamlegra reikninga dreift yfir API Anthropic og skýjapalla þriðja aðila. Eitt umboðsnet stjórnaði meira en 20.000 sviksamlegum reikningum samtímis, blandaði eimingarumferð saman við lögmætar beiðnir til að forðast uppgötvun.

Hvernig bregst Anthropic við eimingarárásum?

Anthropic er að innleiða margvíslegar mótvægisaðgerðir: hegðunargreiningarflokkara til að greina eimingarmynstur í API umferð, upplýsingamiðlun með öðrum gervigreindarstofum og skýjaþjónustum, hertar reikningsstaðfestingar og líkanastigvarnir sem draga úr virkni úttaks fyrir ólöglega eimingu án þess að draga úr þjónustu fyrir lögmæta notendur. Anthropic kallar einnig eftir samræmdum viðbrögðum iðnaðarins og stjórnvalda.

Hvað nákvæmlega dró DeepSeek út úr Claude?

DeepSeek miðaði að rökhugsun Claude, verkefnum sem byggjast á leiðbeiningum (þar sem Claude virkaði sem umbunarlíkan fyrir styrkingarfræðslu), og ritskoðunaröruggum valkostum fyrir pólitískt viðkvæmar fyrirspurnir. Þeir notuðu aðferðir sem báðu Claude að útskýra innri rökhugsun sína skref fyrir skref, og bjuggu til gögn til þjálfunar með hugsunarkeðju í stórum stíl. Anthropic rakti þessa reikninga til tiltekinna rannsakenda hjá DeepSeek.

Anthropic afhjúpar eimingarárásir frá DeepSeek og MiniMax

Anthropic afhjúpar eimingarherferðir á iðnaðarstigi

Anthropic hefur birt vísbendingar um að þrjár gervigreindarstofur — DeepSeek, Moonshot AI og MiniMax — hafi staðið fyrir samræmdum herferðum til að ná fram getu Claude með ólöglegri eimingu. Herferðirnar mynduðu yfir 16 milljónir samskipta við Claude í gegnum um það bil 24.000 sviksamlega reikninga, sem braut í bága við þjónustuskilmála Anthropic og svæðisbundin aðgangshöft.

Eiming er lögmæt tækni þar sem minna líkan er þjálfað með úttakum sterkara líkans. Framsæknar rannsóknarstofur eima reglulega sín eigin líkön til að búa til ódýrari útgáfur. En þegar keppendur nota eimingu án leyfis, öðlast þeir öfluga getu á broti af þeim kostnaði og tíma sem þarf til sjálfstæðrar þróunar.

Árásirnar miðuðu að mest áberandi eiginleikum Claude: sjálfvirkri rökhugsun, tólanotkun og kóðun — sömu getu og knýr Claude Opus 4.6 og Claude Sonnet 4.6.

Umfang og markmið hverrar herferðar

Rannsóknarstofa	Samskipti	Helstu markmið
DeepSeek	150.000+	Rökhugsun, einkunnagjöf umbunarlíkana, framhjáhöld ritskoðunar
Moonshot AI	3.4 milljónir+	Sjálfvirk rökhugsun, tólanotkun, tölvusjón
MiniMax	13 milljónir+	Sjálfvirk kóðun, samræming tækja

DeepSeek notaði eftirtektarverða tækni: leiðbeiningar sem báðu Claude að útskýra innri rökhugsun sína skref fyrir skref, og bjuggu í raun til gögn til þjálfunar með hugsunarkeðju í stórum stíl. Þeir notuðu einnig Claude til að búa til ritskoðunarörugga valkosti fyrir pólitískt viðkvæmar fyrirspurnir — líklega til að þjálfa eigin líkön til að stýra samtölum frá ritskoðuðum efnum. Anthropic rakti þessa reikninga til tiltekinna rannsakenda hjá stofunni.

Moonshot AI (Kimi líkön) notaði hundruð sviksamlegra reikninga yfir margar aðgangsleiðir. Í síðara stigi færðist Moonshot yfir í markvissari nálgun, reyndi að draga út og endurbyggja rökhugsunarferli Claude.

MiniMax stóð fyrir stærstu herferðinni með yfir 13 milljónum samskipta. Anthropic greindi þessa herferð meðan hún var enn virk — áður en MiniMax gaf út líkanið sem það var að þjálfa. Þegar Anthropic gaf út nýtt líkan meðan á virku herferðinni stóð, sneri MiniMax við innan 24 klukkustunda og beindi næstum helmingi umferðar sinnar til að ná nýjustu getunni.

Hvernig eimarar framhjá aðgangshöftum

Anthropic býður ekki upp á viðskiptalegan aðgang að Claude í Kína af þjóðaröryggisástæðum. Rannsóknarstofurnar fóru framhjá þessu með því að nota viðskiptahugbúnaðarþjónustu sem selur framsækinn líkanaðgang í miklu magni.

Þessar þjónustur reka það sem Anthropic kallar "hydra cluster" arkitektúr: útbreidd net sviksamlegra reikninga sem dreifa umferð yfir API og skýjapalla þriðja aðila. Þegar einn reikningur er bannaður kemur nýr í staðinn. Eitt umboðsnet stjórnaði meira en 20.000 sviksamlegum reikningum samtímis, blandaði eimingarumferð saman við óskyldar beiðnir viðskiptavina til að gera greiningu erfiðari.

Það sem aðgreinir eimingu frá venjulegri notkun er mynstrið. Ein leiðbeining gæti virst skaðlaus, en þegar afbrigði berast tugþúsundir sinnum yfir hundruð samræmdra reikninga, sem allir miða að sömu þröngu getunni, verður mynstrið ljóst.

Þjóðaröryggisáhrif

Ólöglega eimuð líkön skortir þær öryggisráðstafanir sem bandarísk fyrirtæki byggja inn í framsækin kerfi. Þessar ráðstafanir koma í veg fyrir að gervigreind sé notuð til að þróa lífefnavopn, framkvæma árásargjarnar netárásir eða virkja fjöldaeftirlit.

Líkön sem byggð eru með ólöglegri eimingu munu líklega ekki halda þeim vörnum. Erlendu rannsóknarstofurnar geta sent óvarða getu inn í hernaðar-, upplýsingaöflunar- og eftirlitskerfi. Ef eimuð líkön eru gefin út sem opinn hugbúnaður, dreifast hættuleg geta frjálslega út fyrir stjórn nokkurrar ríkisstjórnar.

Eimingarárásir grafa einnig undan bandarískum útflutningshöftum. Án sýnileika á þessar árásir, geta augljóslega hraðar framfarir þessara rannsóknarstofa verið rangtúlkaðar sem sönnun þess að útflutningshöft séu árangurslaus. Í raun og veru eru framfarirnar háðar getu sem er dregin út úr bandarískum líkönum, og framkvæmd útdráttar í stórum stíl krefst háþróaðra flís sem útflutningshöft eru hönnuð til að takmarka.

Mótvægisaðgerðir Anthropic

Anthropic er að beita mörgum vörnum gegn eimingarárásum:

Greiningarflokkarar: Hegðunargreiningarkerfi sem greina eimingarmynstur í API umferð, þar með talið framkallaðar hugsunarkeðjur sem notaðar eru til að smíða gögn til þjálfunar í rökhugsun
Upplýsingamiðlun: Tæknilegir vísar deildir með öðrum gervigreindarstofum, skýjaþjónustum og viðeigandi yfirvöldum til að fá heildarmynd af eimingarumhverfinu
Aðgangsstýringar: Hert staðfesting fyrir menntareikninga, öryggisrannsóknarverkefni og sprotafyrirtæki — leiðirnar sem oftast eru misnotaðar
Líkanahegðunarvarnir: Mótvægisaðgerðir á vöru-, API- og líkanastigi hannaðar til að draga úr virkni úttaks fyrir ólöglega eimingu án þess að draga úr lögmætri notkun

Anthropic hefur einnig tengt þessar niðurstöður við fyrri stuðning sinn við Claude Code Security getu fyrir varnarmenn, sem hluti af víðtækari stefnu til að tryggja að framsækin gervigreindargeta haldist varin.

Viðbrögð alls iðnaðarins nauðsynleg

Anthropic leggur áherslu á að ekkert eitt fyrirtæki geti leyst eimingarárásir eitt og sér. Herferðirnar misnota viðskiptahugbúnaðarþjónustu, skýjapalla þriðja aðila og göt í reikningsstaðfestingu sem ná yfir allt gervigreindarkerfið.

Vaxandi styrkleiki og flókin eðli þessara herferða minnkar svigrúm til að bregðast við. Anthropic hefur séð að eimarar aðlagast hratt: þegar ný líkön eru gefin út, snúast útdráttarviðleitni við innan nokkurra klukkustunda. Þegar reikningar eru bannaðir, skipta umboðsnet þeim strax út í gegnum hydra cluster arkitektúr án eins bilunarpunkts.

Til að takast á við ógnina þarf samræmdar aðgerðir gervigreindarfyrirtækja, skýjaþjónustuaðila og stjórnvalda. Anthropic birti niðurstöður sínar til að gera sönnunargögnin aðgengileg öllum sem eiga hagsmuna að gæta í að vernda framsækna gervigreindargetu frá óleyfilegri útdrátt. Fyrirtækið kallar eftir stöðlum á iðnaðarstigi um reikningsstaðfestingu, sameiginlegum ramma fyrir ógnargreind og pólitískum stuðningi við framfylgd gegn ólöglegri eimingu í stórum stíl.