Mik azok az AI desztillációs támadások?

Az AI desztillációs támadások során egy kevésbé fejlett modellt egy erősebb modell kimenetein képeznek ki, jogosulatlanul. A versenytársak hatalmas mennyiségű gondosan kidolgozott promptot generálnak, hogy egy élvonalbeli modellből specifikus képességeket vonjanak ki, majd a válaszokat saját rendszereik kiképzésére használják fel. Az Anthropic több mint 16 millió jogellenes tranzakciót azonosított körülbelül 24 000 csalárd fiók felhasználásával, amelyeket a DeepSeek, Moonshot és MiniMax használt Claude képességeinek kinyerésére.

Mely vállalatok desztillálták Claude képességeit?

Az Anthropic három kínai AI laboratóriumot azonosított, amelyek ipari méretű desztillációs kampányokat folytattak: a DeepSeek-et (több mint 150 000 tranzakció, amelyek az érvelést és a cenzúra megkerülését célozták), a Moonshot AI-t (több mint 3,4 millió tranzakció, amelyek az ügynöki érvelést és az eszközhasználatot célozták), valamint a MiniMax-ot (több mint 13 millió tranzakció, amelyek az ügynöki kódolást és az eszközök orkesztrálását célozták).

Miért jelentenek a desztillációs támadások nemzetbiztonsági kockázatot?

Az illegálisan desztillált modellekből hiányoznak azok a biztonsági korlátok, amelyeket az amerikai vállalatok, mint az Anthropic, beépítenek rendszereikbe. Ezek a védelem nélküli modellek bevethetők offenzív kiberműveletekre, dezinformációs kampányokra, tömeges megfigyelésre, sőt még biológiai fegyverek fejlesztésének támogatására is. Ha a desztillált modellek nyílt forráskódúvá válnak, a veszélyes képességek minden egyes kormány ellenőrzésén kívülre terjednek, aláásva az exportellenőrzéseket, amelyek célja Amerika AI előnyének fenntartása.

Hogyan fért hozzá a DeepSeek, Moonshot és MiniMax Claude-hoz?

A laborok megkerülték az Anthropic regionális hozzáférési korlátozásait kereskedelmi proxy szolgáltatásokon keresztül, amelyek nagy léptékben továbbértékesítik a Claude API hozzáférését. Ezek a szolgáltatások hydra klaszter architektúrákat működtetnek, kiterjedt csalárd fiókhálózatokkal, amelyek az Anthropic API-ján és harmadik féltől származó felhőplatformokon keresztül oszlanak el. Egy proxy hálózat több mint 20 000 csalárd fiókot kezelt egyszerre, keverve a desztillációs forgalmat a jogszerű kérésekkel az észlelés elkerülése érdekében.

Hogyan reagál az Anthropic a desztillációs támadásokra?

Az Anthropic számos ellenintézkedést alkalmaz: viselkedésalapú ujjlenyomat-azonosító osztályozókat a desztillációs mintázatok észlelésére az API forgalomban, információ megosztást más AI laborokkal és felhőszolgáltatókkal, megerősített fiókellenőrzést, valamint modell szintű védelmi mechanizmusokat, amelyek csökkentik az illegális desztilláció kimeneti hatékonyságát anélkül, hogy rontanák a jogszerű felhasználók szolgáltatásait. Az Anthropic összehangolt ipari és politikai válaszokat is szorgalmaz.

Mit vont ki pontosan a DeepSeek Claude-ból?

A DeepSeek Claude érvelési képességeit, a rubrikán alapuló értékelési feladatait (amelyek Claude-ot jutalommodellként működtették a megerősítő tanuláshoz), valamint a politikailag érzékeny lekérdezésekre adott cenzúra-biztos alternatívákat célozta meg. Olyan technikákat alkalmaztak, amelyek arra kérték Claude-ot, hogy lépésről lépésre fejtse ki belső érvelését, nagyméretű gondolatmenet-tréning adatok generálva. Az Anthropic ezeket a fiókokat a DeepSeek specifikus kutatóihoz vezette vissza.

Anthropic feltárja a DeepSeek és MiniMax desztillációs támadásait

Anthropic felfedi az ipari méretű desztillációs kampányokat

Az Anthropic bizonyítékot tett közzé, miszerint három AI laboratórium – a DeepSeek, a Moonshot AI és a MiniMax – összehangolt kampányokat folytatott Claude képességeinek kinyerésére jogellenes desztilláció révén. A kampányok több mint 16 millió tranzakciót generáltak Claude-dal mintegy 24 000 csalárd fiókon keresztül, megsértve az Anthropic szolgáltatási feltételeit és regionális hozzáférési korlátozásait.

A desztilláció egy legitim technika, ahol egy kisebb modellt egy erősebb modell kimenetein képeznek ki. Az élvonalbeli laborok rendszeresen desztillálják saját modelljeiket, hogy olcsóbb verziókat hozzanak létre. Azonban amikor a versenytársak engedély nélkül használják a desztillációt, akkor az önálló fejlesztéshez szükséges költségek és idő töredékéért jutnak erős képességekhez.

A támadások Claude leginkább megkülönböztethető funkcióit célozták: az ügynöki érvelést, az eszközhasználatot és a kódolást – ugyanazokat a képességeket, amelyek a Claude Opus 4.6 és a Claude Sonnet 4.6 működését biztosítják.

Az egyes kampányok mérete és célpontjai

Labor	Tranzakciók	Elsődleges célpontok
DeepSeek	150 000+	Érvelés, jutalommodell-értékelés, cenzúra-megkerülések
Moonshot AI	3,4 millió+	Ügynöki érvelés, eszközhasználat, számítógépes látás
MiniMax	13 millió+	Ügynöki kódolás, eszközök orkesztrálása

A DeepSeek figyelemre méltó technikát alkalmazott: olyan promptokat, amelyek arra kérték Claude-ot, hogy lépésről lépésre fejtse ki belső érvelését, hatékonyan generálva nagy mennyiségű gondolatmenet-tréning adatot. Claude-ot arra is használták, hogy cenzúra-biztos alternatívákat generáljon politikailag érzékeny lekérdezésekre – valószínűleg saját modelljeik kiképzésére, hogy a beszélgetéseket eltereljék a cenzúrázott témákról. Az Anthropic ezeket a fiókokat a labor specifikus kutatóihoz vezette vissza.

A Moonshot AI (Kimi modellek) több száz csalárd fiókot alkalmazott számos hozzáférési útvonalon keresztül. Egy későbbi fázisban a Moonshot egy célzottabb megközelítésre váltott, megpróbálva Claude érvelési nyomait kivonni és rekonstruálni.

A MiniMax bonyolította a legnagyobb kampányt, több mint 13 millió tranzakcióval. Az Anthropic még aktív állapotban észlelte ezt a kampányt – mielőtt a MiniMax kiadta volna a képzés alatt álló modelljét. Amikor az Anthropic egy új modellt adott ki az aktív kampány során, a MiniMax 24 órán belül átállt, forgalmának közel felét az új képességek megszerzésére irányítva.

Hogyan kerülik meg a desztillálók a hozzáférési korlátozásokat

Az Anthropic nem kínál kereskedelmi Claude hozzáférést Kínában nemzetbiztonsági okokból. A laborok ezt kereskedelmi proxy szolgáltatásokon keresztül kerülték meg, amelyek nagy léptékben továbbértékesítik az élvonalbeli modellekhez való hozzáférést.

Ezek a szolgáltatások olyat működtetnek, amit az Anthropic „hydra klaszter” architektúráknak nevez: kiterjedt csalárd fiókhálózatokat, amelyek az API és harmadik féltől származó felhőplatformok között osztják el a forgalmat. Amikor egy fiókot letiltanak, egy új váltja fel. Egy proxy hálózat több mint 20 000 csalárd fiókot kezelt egyszerre, keverve a desztillációs forgalmat a nem kapcsolódó ügyfélkérésekkel, hogy megnehezítse az észlelést.

A desztillációt a normál használattól a mintázatok különböztetik meg. Egyetlen prompt ártatlannak tűnhet, de amikor annak variációi több tízezerszer érkeznek több száz összehangolt fiókból, mind ugyanazt a szűk képességet célozva, a mintázat egyértelművé válik.

Nemzetbiztonsági vonatkozások

Az illegálisan desztillált modellekből hiányoznak azok a biztonsági korlátok, amelyeket az amerikai vállalatok beépítenek az élvonalbeli rendszerekbe. Ezek a korlátok megakadályozzák, hogy az AI-t biológiai fegyverek fejlesztésére, offenzív kiberműveletek végrehajtására vagy tömeges megfigyelés lehetővé tételére használják.

Az illegális desztilláció révén felépített modellek valószínűleg nem tartják meg ezeket a védelmeket. A külföldi laborok védtelen képességeket táplálhatnak katonai, hírszerzési és megfigyelő rendszerekbe. Ha a desztillált modellek nyílt forráskódúvá válnak, a veszélyes képességek szabadon terjednek minden kormány ellenőrzésén kívülre.

A desztillációs támadások aláássák az amerikai exportellenőrzéseket is. E támadások láthatósága nélkül ezeknek a laboroknak a látszólag gyors fejlődése tévesen úgy értelmezhető, mint bizonyíték arra, hogy az exportellenőrzések hatástalanok. A valóságban a fejlesztések amerikai modellekből kinyert képességeken alapulnak, és a kinyerés nagy léptékű végrehajtásához olyan fejlett chipekre van szükség, amelyeket az exportellenőrzések korlátozni hivatottak.

Az Anthropic ellenintézkedései

Az Anthropic számos védelmi intézkedést alkalmaz a desztillációs támadások ellen:

Észlelési osztályozók: Viselkedésalapú ujjlenyomat-rendszerek, amelyek az API forgalomban azonosítják a desztillációs mintázatokat, beleértve a gondolatmenet-kiváltást, amelyet érvelési képzési adatok létrehozására használnak.
Információmegosztás: Technikai mutatók megosztása más AI laborokkal, felhőszolgáltatókkal és releváns hatóságokkal a desztillációs helyzet holisztikus képének kialakításához.
Hozzáférési ellenőrzések: Megerősített ellenőrzés az oktatási fiókok, biztonsági kutatási programok és startup szervezetek számára – azaz a leggyakrabban kihasznált útvonalak esetében.
Modell szintű védelmi mechanizmusok: Termék-, API- és modell szintű ellenintézkedések, amelyek célja az illegális desztilláció kimeneti hatékonyságának csökkentése anélkül, hogy rontanák a legitim felhasználást.

Az Anthropic ezeket a megállapításokat korábbi, a Claude Code Security képességeinek védelmi célú támogatásával is összekapcsolta, ami egy szélesebb stratégia része annak biztosítására, hogy az élvonalbeli AI képességek védettek maradjanak.

Iparágon belüli válaszra van szükség

Az Anthropic hangsúlyozza, hogy egyetlen vállalat sem képes önmagában megoldani a desztillációs támadásokat. A kampányok kihasználják a kereskedelmi proxy szolgáltatásokat, a harmadik féltől származó felhőplatformokat és a fiókellenőrzés hiányosságait, amelyek az egész AI ökoszisztémára kiterjednek.

Ezeknek a kampányoknak a növekvő intenzitása és kifinomultsága szűkíti a cselekvési időt. Az Anthropic megfigyelte, hogy a desztillálók gyorsan alkalmazkodnak: amikor új modellek jelennek meg, az extrakciós erőfeszítések órákon belül átállnak. Amikor fiókokat tiltanak le, a proxy hálózatok azonnal pótolják őket hydra klaszter architektúrákon keresztül, egységes meghibásodási pont nélkül.

A fenyegetés kezelése összehangolt fellépést igényel az AI vállalatok, a felhőszolgáltatók és a döntéshozók között. Az Anthropic közzétette megállapításait, hogy a bizonyítékok mindenki számára elérhetővé váljanak, akinek érdeke az élvonalbeli AI képességek jogosulatlan kinyerése elleni védelem. A vállalat iparági szintű szabványokat szorgalmaz a fiókellenőrzésre, megosztott fenyegetés-felderítési keretrendszereket és politikai támogatást az illegális desztilláció elleni fellépéshez nagy léptékben.