Apakah itu serangan distilasi AI?

Serangan distilasi AI melibatkan melatih model yang kurang berkemampuan berdasarkan output model yang lebih kuat tanpa kebenaran. Pesaing menjana sejumlah besar arahan yang direka dengan teliti untuk mengekstrak keupayaan tertentu daripada model perintis, kemudian menggunakan respons tersebut untuk melatih sistem mereka sendiri. Anthropic mengenal pasti lebih 16 juta pertukaran haram melalui kira-kira 24,000 akaun penipuan yang digunakan oleh DeepSeek, Moonshot, dan MiniMax untuk mengekstrak keupayaan Claude.

Syarikat manakah yang mendistilasi keupayaan Claude?

Anthropic mengenal pasti tiga makmal AI China yang menjalankan kempen distilasi berskala industri: DeepSeek (lebih 150,000 pertukaran menyasarkan penaakulan dan penyelesaian penapisan), Moonshot AI (lebih 3.4 juta pertukaran menyasarkan penaakulan agen dan penggunaan alat), dan MiniMax (lebih 13 juta pertukaran menyasarkan pengekodan agen dan orkestrasi alat).

Mengapa serangan distilasi merupakan risiko keselamatan negara?

Model yang didistilasi secara haram tidak mempunyai pagar keselamatan yang dibina oleh syarikat AS seperti Anthropic ke dalam sistem mereka. Model yang tidak dilindungi ini boleh digunakan untuk operasi siber ofensif, kempen disinformasi, pengawasan massa, dan bahkan sokongan pembangunan senjata biologi. Jika model yang didistilasi dijadikan sumber terbuka, keupayaan berbahaya akan tersebar di luar kawalan mana-mana kerajaan, melemahkan kawalan eksport yang direka untuk mengekalkan kelebihan AI Amerika.

Bagaimana DeepSeek, Moonshot, dan MiniMax mengakses Claude?

Makmal-makmal tersebut memintas sekatan akses serantau Anthropic menggunakan perkhidmatan proksi komersial yang menjual semula akses API Claude secara besar-besaran. Perkhidmatan ini menjalankan seni bina kelompok hydra dengan rangkaian luas akaun penipuan yang diedarkan merentasi API Anthropic dan platform awan pihak ketiga. Satu rangkaian proksi menguruskan lebih daripada 20,000 akaun penipuan secara serentak, mencampurkan trafik distilasi dengan permintaan sah untuk mengelakkan pengesanan.

Bagaimana Anthropic bertindak balas terhadap serangan distilasi?

Anthropic sedang melaksanakan pelbagai langkah balas: pengelas cap jari tingkah laku untuk mengesan corak distilasi dalam trafik API, perkongsian risikan dengan makmal AI lain dan penyedia awan, pengesahan akaun yang diperkukuh, dan pagar keselamatan peringkat model yang mengurangkan keberkesanan output untuk distilasi haram tanpa merosakkan perkhidmatan bagi pengguna yang sah. Anthropic juga menyeru tindak balas industri dan dasar yang diselaraskan.

Apakah yang diekstrak DeepSeek secara khusus daripada Claude?

DeepSeek menyasarkan keupayaan penaakulan Claude, tugas penggredan berasaskan rubrik (menjadikan Claude berfungsi sebagai model ganjaran untuk pembelajaran pengukuhan), dan alternatif selamat penapisan kepada pertanyaan sensitif politik. Mereka menggunakan teknik yang meminta Claude untuk menyatakan penaakulan dalamannya langkah demi langkah, menjana data latihan rantai pemikiran secara besar-besaran. Anthropic mengesan akaun-akaun ini kepada penyelidik tertentu di DeepSeek.

Anthropic Mendedahkan Serangan Distilasi oleh DeepSeek dan MiniMax

Anthropic Membongkar Kempen Distilasi Berskala Industri

Anthropic telah menerbitkan bukti bahawa tiga makmal AI — DeepSeek, Moonshot AI, dan MiniMax — menjalankan kempen yang diselaraskan untuk mengekstrak keupayaan Claude melalui distilasi haram. Kempen-kempen ini menjana lebih 16 juta pertukaran dengan Claude melalui kira-kira 24,000 akaun penipuan, melanggar syarat perkhidmatan Anthropic dan sekatan akses serantau.

Distilasi adalah teknik sah di mana model yang lebih kecil dilatih berdasarkan output daripada model yang lebih kuat. Makmal perintis secara kerap mendistilasi model mereka sendiri untuk mencipta versi yang lebih murah. Tetapi apabila pesaing menggunakan distilasi tanpa kebenaran, mereka memperoleh keupayaan yang kuat pada sebahagian kecil daripada kos dan masa yang diperlukan untuk pembangunan bebas.

Serangan-serangan itu menyasarkan ciri-ciri Claude yang paling membezakan: penaakulan agen, penggunaan alat, dan pengekodan — keupayaan yang sama yang menggerakkan Claude Opus 4.6 dan Claude Sonnet 4.6.

Skala dan Sasaran Setiap Kempen

Makmal	Pertukaran	Sasaran Utama
DeepSeek	150,000+	Penaakulan, penggredan model ganjaran, penyelesaian penapisan
Moonshot AI	3.4 juta+	Penaakulan agen, penggunaan alat, penglihatan komputer
MiniMax	13 juta+	Pengekodan agen, orkestrasi alat

DeepSeek menggunakan teknik yang ketara: arahan yang meminta Claude untuk menyatakan penaakulan dalamannya langkah demi langkah, secara berkesan menjana data latihan rantai pemikiran secara besar-besaran. Mereka juga menggunakan Claude untuk menjana alternatif selamat penapisan kepada pertanyaan sensitif politik — kemungkinan besar untuk melatih model mereka sendiri untuk mengelakkan perbualan daripada topik yang ditapis. Anthropic mengesan akaun-akaun ini kepada penyelidik tertentu di makmal tersebut.

Moonshot AI (model Kimi) menggunakan beratus-ratus akaun penipuan merentasi pelbagai laluan akses. Dalam fasa kemudian, Moonshot beralih kepada pendekatan yang lebih disasarkan, cuba mengekstrak dan membina semula jejak penaakulan Claude.

MiniMax menjalankan kempen terbesar dengan lebih 13 juta pertukaran. Anthropic mengesan kempen ini semasa ia masih aktif — sebelum MiniMax mengeluarkan model yang sedang dilatihnya. Apabila Anthropic mengeluarkan model baharu semasa kempen aktif, MiniMax beralih dalam tempoh 24 jam, mengalihkan hampir separuh trafik mereka untuk menangkap keupayaan terkini.

Bagaimana Pelaku Distilasi Memintas Sekatan Akses

Anthropic tidak menawarkan akses Claude komersial di China atas sebab keselamatan negara. Makmal-makmal tersebut memintas ini melalui perkhidmatan proksi komersial yang menjual semula akses model perintis secara besar-besaran.

Perkhidmatan ini menjalankan apa yang Anthropic panggil seni bina "kelompok hydra": rangkaian akaun penipuan yang luas yang mengedarkan trafik merentasi API dan platform awan pihak ketiga. Apabila satu akaun diharamkan, akaun baharu akan menggantikannya. Satu rangkaian proksi menguruskan lebih daripada 20,000 akaun penipuan secara serentak, mencampurkan trafik distilasi dengan permintaan pelanggan yang tidak berkaitan untuk menyukarkan pengesanan.

Apa yang membezakan distilasi daripada penggunaan biasa ialah coraknya. Satu arahan mungkin kelihatan tidak berbahaya, tetapi apabila variasi tiba puluhan ribu kali merentasi beratus-ratus akaun yang diselaraskan, semuanya menyasarkan keupayaan yang sama, coraknya menjadi jelas.

Implikasi Keselamatan Negara

Model yang didistilasi secara haram tidak mempunyai pagar keselamatan yang dibina oleh syarikat AS ke dalam sistem perintis. Pagar keselamatan ini menghalang AI daripada digunakan untuk membangunkan senjata biologi, menjalankan operasi siber ofensif, atau membolehkan pengawasan massa.

Model yang dibina melalui distilasi haram tidak mungkin mengekalkan perlindungan tersebut. Makmal asing boleh menyalurkan keupayaan yang tidak dilindungi ke dalam sistem ketenteraan, risikan, dan pengawasan. Jika model yang didistilasi dijadikan sumber terbuka, keupayaan berbahaya akan tersebar secara bebas di luar kawalan mana-mana kerajaan.

Serangan distilasi juga melemahkan kawalan eksport AS. Tanpa penglihatan terhadap serangan ini, kemajuan pesat yang jelas oleh makmal-makmal ini boleh disalahertikan sebagai bukti bahawa kawalan eksport tidak berkesan. Pada hakikatnya, kemajuan itu bergantung pada keupayaan yang diekstrak daripada model Amerika, dan melaksanakan pengekstrakkan secara besar-besaran memerlukan cip canggih yang direka untuk disekat oleh kawalan eksport.

Langkah Balas Anthropic

Anthropic sedang melaksanakan pelbagai pertahanan terhadap serangan distilasi:

Pengelas pengesanan: Sistem cap jari tingkah laku yang mengenal pasti corak distilasi dalam trafik API, termasuk elicitasi rantai pemikiran yang digunakan untuk membina data latihan penaakulan
Perkongsian risikan: Petunjuk teknikal yang dikongsi dengan makmal AI lain, penyedia awan, dan pihak berkuasa yang berkaitan untuk gambaran menyeluruh landskap distilasi
Kawalan akses: Pengesahan yang diperkukuh untuk akaun pendidikan, program penyelidikan keselamatan, dan organisasi permulaan — laluan yang paling kerap dieksploitasi
Pagar keselamatan peringkat model: Langkah balas peringkat produk, API, dan model yang direka untuk mengurangkan keberkesanan output untuk distilasi haram tanpa merosakkan penggunaan yang sah

Anthropic juga telah menghubungkan penemuan ini dengan sokongan awalnya untuk keupayaan Claude Code Security bagi pembela, sebahagian daripada strategi yang lebih luas untuk memastikan keupayaan AI perintis kekal dilindungi.

Tindak Balas Seluruh Industri Diperlukan

Anthropic menegaskan bahawa tiada satu syarikat pun boleh menyelesaikan serangan distilasi secara bersendirian. Kempen-kempen ini mengeksploitasi perkhidmatan proksi komersial, platform awan pihak ketiga, dan jurang dalam pengesahan akaun yang merangkumi seluruh ekosistem AI.

Intensiti dan kecanggihan kempen-kempen ini yang semakin meningkat mengehadkan peluang untuk bertindak. Anthropic telah memerhatikan bahawa pelaku distilasi menyesuaikan diri dengan pantas: apabila model baharu dikeluarkan, usaha pengekstrakkan beralih dalam masa beberapa jam. Apabila akaun diharamkan, rangkaian proksi segera menggantikannya melalui seni bina kelompok hydra tanpa satu titik kegagalan.

Menangani ancaman ini memerlukan tindakan yang diselaraskan di kalangan syarikat AI, penyedia awan, dan pembuat dasar. Anthropic menerbitkan penemuannya untuk menjadikan bukti tersedia kepada semua pihak yang berkepentingan dalam melindungi keupayaan AI perintis daripada pengekstrakkan tanpa kebenaran. Syarikat itu menyeru standard seluruh industri mengenai pengesahan akaun, rangka kerja perkongsian risikan ancaman, dan sokongan dasar untuk penguatkuasaan terhadap distilasi haram secara besar-besaran.