Anthropic afhjúpar eimingarherferðir á iðnaðarstigi
Anthropic hefur birt vísbendingar um að þrjár gervigreindarstofur — DeepSeek, Moonshot AI og MiniMax — hafi staðið fyrir samræmdum herferðum til að ná fram getu Claude með ólöglegri eimingu. Herferðirnar mynduðu yfir 16 milljónir samskipta við Claude í gegnum um það bil 24.000 sviksamlega reikninga, sem braut í bága við þjónustuskilmála Anthropic og svæðisbundin aðgangshöft.
Eiming er lögmæt tækni þar sem minna líkan er þjálfað með úttakum sterkara líkans. Framsæknar rannsóknarstofur eima reglulega sín eigin líkön til að búa til ódýrari útgáfur. En þegar keppendur nota eimingu án leyfis, öðlast þeir öfluga getu á broti af þeim kostnaði og tíma sem þarf til sjálfstæðrar þróunar.
Árásirnar miðuðu að mest áberandi eiginleikum Claude: sjálfvirkri rökhugsun, tólanotkun og kóðun — sömu getu og knýr Claude Opus 4.6 og Claude Sonnet 4.6.
Umfang og markmið hverrar herferðar
| Rannsóknarstofa | Samskipti | Helstu markmið |
|---|---|---|
| DeepSeek | 150.000+ | Rökhugsun, einkunnagjöf umbunarlíkana, framhjáhöld ritskoðunar |
| Moonshot AI | 3.4 milljónir+ | Sjálfvirk rökhugsun, tólanotkun, tölvusjón |
| MiniMax | 13 milljónir+ | Sjálfvirk kóðun, samræming tækja |
DeepSeek notaði eftirtektarverða tækni: leiðbeiningar sem báðu Claude að útskýra innri rökhugsun sína skref fyrir skref, og bjuggu í raun til gögn til þjálfunar með hugsunarkeðju í stórum stíl. Þeir notuðu einnig Claude til að búa til ritskoðunarörugga valkosti fyrir pólitískt viðkvæmar fyrirspurnir — líklega til að þjálfa eigin líkön til að stýra samtölum frá ritskoðuðum efnum. Anthropic rakti þessa reikninga til tiltekinna rannsakenda hjá stofunni.
Moonshot AI (Kimi líkön) notaði hundruð sviksamlegra reikninga yfir margar aðgangsleiðir. Í síðara stigi færðist Moonshot yfir í markvissari nálgun, reyndi að draga út og endurbyggja rökhugsunarferli Claude.
MiniMax stóð fyrir stærstu herferðinni með yfir 13 milljónum samskipta. Anthropic greindi þessa herferð meðan hún var enn virk — áður en MiniMax gaf út líkanið sem það var að þjálfa. Þegar Anthropic gaf út nýtt líkan meðan á virku herferðinni stóð, sneri MiniMax við innan 24 klukkustunda og beindi næstum helmingi umferðar sinnar til að ná nýjustu getunni.
Hvernig eimarar framhjá aðgangshöftum
Anthropic býður ekki upp á viðskiptalegan aðgang að Claude í Kína af þjóðaröryggisástæðum. Rannsóknarstofurnar fóru framhjá þessu með því að nota viðskiptahugbúnaðarþjónustu sem selur framsækinn líkanaðgang í miklu magni.
Þessar þjónustur reka það sem Anthropic kallar "hydra cluster" arkitektúr: útbreidd net sviksamlegra reikninga sem dreifa umferð yfir API og skýjapalla þriðja aðila. Þegar einn reikningur er bannaður kemur nýr í staðinn. Eitt umboðsnet stjórnaði meira en 20.000 sviksamlegum reikningum samtímis, blandaði eimingarumferð saman við óskyldar beiðnir viðskiptavina til að gera greiningu erfiðari.
Það sem aðgreinir eimingu frá venjulegri notkun er mynstrið. Ein leiðbeining gæti virst skaðlaus, en þegar afbrigði berast tugþúsundir sinnum yfir hundruð samræmdra reikninga, sem allir miða að sömu þröngu getunni, verður mynstrið ljóst.
Þjóðaröryggisáhrif
Ólöglega eimuð líkön skortir þær öryggisráðstafanir sem bandarísk fyrirtæki byggja inn í framsækin kerfi. Þessar ráðstafanir koma í veg fyrir að gervigreind sé notuð til að þróa lífefnavopn, framkvæma árásargjarnar netárásir eða virkja fjöldaeftirlit.
Líkön sem byggð eru með ólöglegri eimingu munu líklega ekki halda þeim vörnum. Erlendu rannsóknarstofurnar geta sent óvarða getu inn í hernaðar-, upplýsingaöflunar- og eftirlitskerfi. Ef eimuð líkön eru gefin út sem opinn hugbúnaður, dreifast hættuleg geta frjálslega út fyrir stjórn nokkurrar ríkisstjórnar.
Eimingarárásir grafa einnig undan bandarískum útflutningshöftum. Án sýnileika á þessar árásir, geta augljóslega hraðar framfarir þessara rannsóknarstofa verið rangtúlkaðar sem sönnun þess að útflutningshöft séu árangurslaus. Í raun og veru eru framfarirnar háðar getu sem er dregin út úr bandarískum líkönum, og framkvæmd útdráttar í stórum stíl krefst háþróaðra flís sem útflutningshöft eru hönnuð til að takmarka.
Mótvægisaðgerðir Anthropic
Anthropic er að beita mörgum vörnum gegn eimingarárásum:
- Greiningarflokkarar: Hegðunargreiningarkerfi sem greina eimingarmynstur í API umferð, þar með talið framkallaðar hugsunarkeðjur sem notaðar eru til að smíða gögn til þjálfunar í rökhugsun
- Upplýsingamiðlun: Tæknilegir vísar deildir með öðrum gervigreindarstofum, skýjaþjónustum og viðeigandi yfirvöldum til að fá heildarmynd af eimingarumhverfinu
- Aðgangsstýringar: Hert staðfesting fyrir menntareikninga, öryggisrannsóknarverkefni og sprotafyrirtæki — leiðirnar sem oftast eru misnotaðar
- Líkanahegðunarvarnir: Mótvægisaðgerðir á vöru-, API- og líkanastigi hannaðar til að draga úr virkni úttaks fyrir ólöglega eimingu án þess að draga úr lögmætri notkun
Anthropic hefur einnig tengt þessar niðurstöður við fyrri stuðning sinn við Claude Code Security getu fyrir varnarmenn, sem hluti af víðtækari stefnu til að tryggja að framsækin gervigreindargeta haldist varin.
Viðbrögð alls iðnaðarins nauðsynleg
Anthropic leggur áherslu á að ekkert eitt fyrirtæki geti leyst eimingarárásir eitt og sér. Herferðirnar misnota viðskiptahugbúnaðarþjónustu, skýjapalla þriðja aðila og göt í reikningsstaðfestingu sem ná yfir allt gervigreindarkerfið.
Vaxandi styrkleiki og flókin eðli þessara herferða minnkar svigrúm til að bregðast við. Anthropic hefur séð að eimarar aðlagast hratt: þegar ný líkön eru gefin út, snúast útdráttarviðleitni við innan nokkurra klukkustunda. Þegar reikningar eru bannaðir, skipta umboðsnet þeim strax út í gegnum hydra cluster arkitektúr án eins bilunarpunkts.
Til að takast á við ógnina þarf samræmdar aðgerðir gervigreindarfyrirtækja, skýjaþjónustuaðila og stjórnvalda. Anthropic birti niðurstöður sínar til að gera sönnunargögnin aðgengileg öllum sem eiga hagsmuna að gæta í að vernda framsækna gervigreindargetu frá óleyfilegri útdrátt. Fyrirtækið kallar eftir stöðlum á iðnaðarstigi um reikningsstaðfestingu, sameiginlegum ramma fyrir ógnargreind og pólitískum stuðningi við framfylgd gegn ólöglegri eimingu í stórum stíl.
Algengar spurningar
Hvað eru eimingarárásir á gervigreind?
Hvaða fyrirtæki eimuðu getu Claude?
Hvers vegna eru eimingarárásir áhætta fyrir þjóðaröryggi?
Hvernig fengu DeepSeek, Moonshot og MiniMax aðgang að Claude?
Hvernig bregst Anthropic við eimingarárásum?
Hvað nákvæmlega dró DeepSeek út úr Claude?
Fylgstu með
Fáðu nýjustu gervigreindarfréttirnar í pósthólfið.
