Mitä ovat tekoälyn tislaushyökkäykset?

Tekoälyn tislaushyökkäyksissä heikompi malli koulutetaan tehokkaamman mallin tuottamilla tulosteilla ilman lupaa. Kilpailijat luovat valtavia määriä huolellisesti muotoiltuja kehotteita poimiakseen tiettyjä kykyjä huippumallista, ja käyttävät sitten vastauksia omien järjestelmiensä kouluttamiseen. Anthropic tunnisti yli 16 miljoonaa laitonta vaihtoa noin 24 000 petollisen tilin kautta, joita DeepSeek, Moonshot ja MiniMax käyttivät Clauden kykyjen hyödyntämiseen.

Mitkä yritykset tislauivat Clauden kyvyt?

Anthropic tunnisti kolme kiinalaista tekoälylaboratoriota, jotka suorittivat teollisen mittakaavan tislauskampanjoita: DeepSeek (yli 150 000 vaihtoa, jotka kohdistuivat päättelyyn ja sensuurin kiertämiseen), Moonshot AI (yli 3,4 miljoonaa vaihtoa, jotka kohdistuivat agenttipohjaiseen päättelyyn ja työkalujen käyttöön) ja MiniMax (yli 13 miljoonaa vaihtoa, jotka kohdistuivat agenttipohjaiseen koodaukseen ja työkalujen orkestrointiin).

Miksi tislaushyökkäykset ovat kansallinen turvallisuusriski?

Laittomasti tislatuista malleista puuttuvat turvatoimet, jotka yhdysvaltalaiset yritykset, kuten Anthropic, rakentavat järjestelmiinsä. Näitä suojaamattomia malleja voidaan käyttää hyökkääviin kyberoperaatioihin, disinformaatiokampanjoihin, massavalvontaan ja jopa biologisen aseen kehittämisen tukemiseen. Jos tislatut mallit avataan, vaaralliset kyvyt leviävät yksittäisen hallituksen hallinnan ulkopuolelle, mikä heikentää vientivalvontaa, jonka tarkoituksena on säilyttää Amerikan etulyöntiasema tekoälyssä.

Miten DeepSeek, Moonshot ja MiniMax pääsivät käsiksi Claudeen?

Laboratoriot kiersivät Anthropicin alueelliset pääsyrajoitukset kaupallisten välityspalveluiden avulla, jotka jälleenmyyvät Claude API -yhteyttä laajassa mittakaavassa. Nämä palvelut käyttävät hydra-klusteriarkkitehtuureja, joissa on laajoja petollisten tilien verkostoja hajautettuna Anthropicin API:n ja kolmannen osapuolen pilvipalvelualustojen kesken. Yksi välityspalveluverkosto hallinnoi yli 20 000 petollista tiliä samanaikaisesti, sekoittaen tislauskäytön laillisiin pyyntöihin havaitsemisen välttämiseksi.

Miten Anthropic vastaa tislaushyökkäyksiin?

Anthropic ottaa käyttöön useita vastatoimia: käyttäytymiseen perustuvia sormenjälkiluokittelijoita tislauskuvioiden havaitsemiseksi API-liikenteessä, tiedustelutietojen jakamista muiden tekoälylaboratorioiden ja pilvipalveluntarjoajien kanssa, tehostettua tilien varmennusta sekä mallitason suojatoimia, jotka vähentävät tulosten tehokkuutta laittomassa tislauksessa heikentämättä palvelua oikeutetuille käyttäjille. Anthropic vaatii myös koordinoituja toimialan ja politiikan vastauksia.

Mitä DeepSeek tarkalleen ottaen uutti Claudesta?

DeepSeek kohdisti hyökkäyksensä Clauden päättelykykyihin, arviointimatriiseihin perustuviin arviointitehtäviin (saaden Clauden toimimaan palkkiomallina vahvistusoppimisessa) ja sensuuriturvallisiin vaihtoehtoihin poliittisesti arkaluonteisiin kyselyihin. He käyttivät tekniikoita, joissa Claudelta pyydettiin ilmaisemaan sisäinen päättelynsä askel askeleelta, luoden mittakaavassa ketju-ajatus-koulutusdataa. Anthropic jäljitti nämä tilit DeepSeekin tietyille tutkijoille.

Anthropic paljastaa DeepSeekin ja MiniMaxin tislaushyökkäykset

Anthropic paljastaa teollisen mittakaavan tislauskampanjat

Anthropic on julkaissut todisteita siitä, että kolme tekoälylaboratoriota – DeepSeek, Moonshot AI ja MiniMax – suorittivat koordinoituja kampanjoita Clauden kykyjen hyödyntämiseksi laittoman tislauksen kautta. Kampanjat tuottivat yli 16 miljoonaa vaihtoa Clauden kanssa noin 24 000 petollisen tilin kautta, rikkoen Anthropicin käyttöehtoja ja alueellisia pääsyrajoituksia.

Tislaus on laillinen tekniikka, jossa pienempi malli koulutetaan vahvemman mallin tuottamilla tulosteilla. Huipputeknologian laboratoriot tislaavat säännöllisesti omia mallejaan luodakseen edullisempia versioita. Mutta kun kilpailijat käyttävät tislausta ilman lupaa, he hankkivat tehokkaita kykyjä murto-osalla itsenäiseen kehitykseen tarvittavista kustannuksista ja ajasta.

Hyökkäykset kohdistuivat Clauden erottuvimpiin ominaisuuksiin: agenttipohjaiseen päättelyyn, työkalujen käyttöön ja koodaukseen – samoihin kykyihin, jotka tehostavat Claude Opus 4.6 ja Claude Sonnet 4.6.

Kunkin kampanjan mittakaava ja kohteet

Laboratorio	Vaihdot	Ensisijaiset kohteet
DeepSeek	150 000+	Päättely, palkkiomallin arviointi, sensuurin kiertäminen
Moonshot AI	3,4 miljoonaa+	Agenttipohjainen päättely, työkalujen käyttö, tietokonenäkö
MiniMax	13 miljoonaa+	Agenttipohjainen koodaus, työkalujen orkestrointi

DeepSeek käytti merkittävää tekniikkaa: kehotteita, jotka pyysivät Claudea selittämään sisäisen päättelynsä askel askeleelta, luoden tehokkaasti "ajatusketju"-koulutusdataa laajassa mittakaavassa. He käyttivät Claudea myös luomaan sensuuriturvallisia vaihtoehtoja poliittisesti arkaluonteisiin kyselyihin – todennäköisesti kouluttaakseen omia mallejaan ohjaamaan keskusteluja pois sensuroiduista aiheista. Anthropic jäljitti nämä tilit laboratorion tietyille tutkijoille.

Moonshot AI (Kimi-mallit) käytti satoja petollisia tilejä useiden pääsyväylien kautta. Myöhemmässä vaiheessa Moonshot siirtyi kohdennetumpaan lähestymistapaan yrittäen poimia ja rekonstruoida Clauden päättelyjälkiä.

MiniMax suoritti suurimman kampanjan yli 13 miljoonalla vaihdolla. Anthropic havaitsi tämän kampanjan sen ollessa vielä aktiivinen – ennen kuin MiniMax julkaisi kouluttamansa mallin. Kun Anthropic julkaisi uuden mallin aktiivisen kampanjan aikana, MiniMax kääntyi 24 tunnin sisällä ja ohjasi lähes puolet liikenteestään uusia ominaisuuksia varten.

Miten tislaajat kiertävät pääsyrajoitukset

Anthropic ei tarjoa kaupallista pääsyä Claudeen Kiinassa kansallisen turvallisuuden syistä. Laboratoriot kiersivät tämän kaupallisten välityspalveluiden avulla, jotka jälleenmyyvät huippumallien pääsyä laajassa mittakaavassa.

Nämä palvelut käyttävät sitä, mitä Anthropic kutsuu "hydra-klusteri"-arkkitehtuureiksi: laajenevia petollisten tilien verkostoja, jotka jakavat liikennettä API:n ja kolmannen osapuolen pilvialustojen kesken. Kun yksi tili kielletään, uusi korvaa sen. Yksi välityspalveluverkosto hallinnoi yli 20 000 petollista tiliä samanaikaisesti, sekoittaen tislauskäytön irrelevantteihin asiakaspyyntöihin havaitsemisen vaikeuttamiseksi.

Tislausta erottaa normaalista käytöstä sen malli. Yksittäinen kehote voi vaikuttaa harmittomalta, mutta kun saman kapean kyvyn kohdistettuja variaatioita saapuu kymmeniä tuhansia kertoja satojen koordinoitujen tilien kautta, kuvio selkeytyy.

Kansalliset turvallisuusvaikutukset

Laittomasti tislatuista malleista puuttuvat turvatoimet, jotka yhdysvaltalaiset yritykset rakentavat huippujärjestelmiin. Nämä turvatoimet estävät tekoälyn käytön biologisten aseiden kehittämiseen, hyökkääviin kyberoperaatioihin tai massavalvontaan.

Laittoman tislauksen kautta rakennetut mallit eivät todennäköisesti säilytä näitä suojatoimia. Ulkomaiset laboratoriot voivat syöttää suojaamattomia kykyjä sotilas-, tiedustelu- ja valvontajärjestelmiin. Jos tislatut mallit avataan, vaaralliset kyvyt leviävät vapaasti minkä tahansa hallituksen hallinnan ulkopuolelle.

Tislaushyökkäykset heikentävät myös Yhdysvaltojen vientivalvontaa. Ilman näkyvyyttä näihin hyökkäyksiin, näiden laboratorioiden näennäisesti nopeat edistysaskeleet voidaan virheellisesti tulkita todisteeksi siitä, että vientivalvonta on tehotonta. Todellisuudessa edistysaskeleet riippuvat amerikkalaisista malleista uutetuista kyvyistä, ja laajamittaisen uuttamisen toteuttaminen vaatii edistyneitä siruja, joita vientivalvonnan on tarkoitus rajoittaa.

Anthropicin vastatoimet

Anthropic ottaa käyttöön useita puolustuksia tislaushyökkäyksiä vastaan:

Havaitsemisluokittelijat: Käyttäytymiseen perustuvat sormenjälkijärjestelmät, jotka tunnistavat tislauskuvioita API-liikenteessä, mukaan lukien ajatusketjun herättäminen, jota käytetään päättelykoulutusdatan rakentamiseen
Tiedustelutietojen jakaminen: Tekniset indikaattorit jaetaan muiden tekoälylaboratorioiden, pilvipalveluntarjoajien ja asiaankuuluvien viranomaisten kanssa kokonaisvaltaisen kuvan saamiseksi tislauskentästä
Pääsynhallinta: Tehostettu varmennus koulutustileille, tietoturvatutkimusohjelmille ja startup-organisaatioille – yleisimmin hyväksikäytetyille reiteille
Mallitason suojatoimet: Tuote-, API- ja mallitason vastatoimet, jotka on suunniteltu vähentämään tulosten tehokkuutta laittomassa tislauksessa heikentämättä oikeutettua käyttöä

Anthropic on myös yhdistänyt nämä havainnot aiempaan tukeensa Claude Code Security -ominaisuuksille puolustajille, osana laajempaa strategiaa varmistaa huippuluokan tekoälyominaisuuksien suojelu.

Alan laajuinen vastaus tarpeen

Anthropic korostaa, ettei yksikään yritys voi ratkaista tislaushyökkäyksiä yksin. Kampanjat hyödyntävät kaupallisia välityspalveluita, kolmannen osapuolen pilvialustoja ja tilien varmennuksen puutteita, jotka kattavat koko tekoälyekosysteemin.

Näiden kampanjoiden kasvava intensiteetti ja kehittyneisyys kaventavat toimintaikkunaa. Anthropic on havainnut, että tislaajat mukautuvat nopeasti: kun uusia malleja julkaistaan, uuttopyrkimykset muuttuvat tunneissa. Kun tilit kielletään, välityspalveluverkostot korvaavat ne välittömästi hydra-klusteriarkkitehtuureilla, joissa ei ole yksittäistä vikaantumispistettä.

Uhkaan vastaaminen edellyttää koordinoitua toimintaa tekoälyyritysten, pilvipalveluntarjoajien ja poliittisten päättäjien kesken. Anthropic julkaisi havaintonsa, jotta todisteet olisivat saatavilla kaikille, jotka ovat kiinnostuneita suojelemaan huippuluokan tekoälykykyjä luvattomalta uuttamiselta. Yritys vaatii koko alan laajuisia standardeja tilien varmennukseen, jaettuja uhkatietokehyksiä ja poliittista tukea laittoman tislauksen torjuntaan laajassa mittakaavassa.