Anthropic Membongkar Kempen Distilasi Berskala Industri
Anthropic telah menerbitkan bukti bahawa tiga makmal AI — DeepSeek, Moonshot AI, dan MiniMax — menjalankan kempen yang diselaraskan untuk mengekstrak keupayaan Claude melalui distilasi haram. Kempen-kempen ini menjana lebih 16 juta pertukaran dengan Claude melalui kira-kira 24,000 akaun penipuan, melanggar syarat perkhidmatan Anthropic dan sekatan akses serantau.
Distilasi adalah teknik sah di mana model yang lebih kecil dilatih berdasarkan output daripada model yang lebih kuat. Makmal perintis secara kerap mendistilasi model mereka sendiri untuk mencipta versi yang lebih murah. Tetapi apabila pesaing menggunakan distilasi tanpa kebenaran, mereka memperoleh keupayaan yang kuat pada sebahagian kecil daripada kos dan masa yang diperlukan untuk pembangunan bebas.
Serangan-serangan itu menyasarkan ciri-ciri Claude yang paling membezakan: penaakulan agen, penggunaan alat, dan pengekodan — keupayaan yang sama yang menggerakkan Claude Opus 4.6 dan Claude Sonnet 4.6.
Skala dan Sasaran Setiap Kempen
| Makmal | Pertukaran | Sasaran Utama |
|---|---|---|
| DeepSeek | 150,000+ | Penaakulan, penggredan model ganjaran, penyelesaian penapisan |
| Moonshot AI | 3.4 juta+ | Penaakulan agen, penggunaan alat, penglihatan komputer |
| MiniMax | 13 juta+ | Pengekodan agen, orkestrasi alat |
DeepSeek menggunakan teknik yang ketara: arahan yang meminta Claude untuk menyatakan penaakulan dalamannya langkah demi langkah, secara berkesan menjana data latihan rantai pemikiran secara besar-besaran. Mereka juga menggunakan Claude untuk menjana alternatif selamat penapisan kepada pertanyaan sensitif politik — kemungkinan besar untuk melatih model mereka sendiri untuk mengelakkan perbualan daripada topik yang ditapis. Anthropic mengesan akaun-akaun ini kepada penyelidik tertentu di makmal tersebut.
Moonshot AI (model Kimi) menggunakan beratus-ratus akaun penipuan merentasi pelbagai laluan akses. Dalam fasa kemudian, Moonshot beralih kepada pendekatan yang lebih disasarkan, cuba mengekstrak dan membina semula jejak penaakulan Claude.
MiniMax menjalankan kempen terbesar dengan lebih 13 juta pertukaran. Anthropic mengesan kempen ini semasa ia masih aktif — sebelum MiniMax mengeluarkan model yang sedang dilatihnya. Apabila Anthropic mengeluarkan model baharu semasa kempen aktif, MiniMax beralih dalam tempoh 24 jam, mengalihkan hampir separuh trafik mereka untuk menangkap keupayaan terkini.
Bagaimana Pelaku Distilasi Memintas Sekatan Akses
Anthropic tidak menawarkan akses Claude komersial di China atas sebab keselamatan negara. Makmal-makmal tersebut memintas ini melalui perkhidmatan proksi komersial yang menjual semula akses model perintis secara besar-besaran.
Perkhidmatan ini menjalankan apa yang Anthropic panggil seni bina "kelompok hydra": rangkaian akaun penipuan yang luas yang mengedarkan trafik merentasi API dan platform awan pihak ketiga. Apabila satu akaun diharamkan, akaun baharu akan menggantikannya. Satu rangkaian proksi menguruskan lebih daripada 20,000 akaun penipuan secara serentak, mencampurkan trafik distilasi dengan permintaan pelanggan yang tidak berkaitan untuk menyukarkan pengesanan.
Apa yang membezakan distilasi daripada penggunaan biasa ialah coraknya. Satu arahan mungkin kelihatan tidak berbahaya, tetapi apabila variasi tiba puluhan ribu kali merentasi beratus-ratus akaun yang diselaraskan, semuanya menyasarkan keupayaan yang sama, coraknya menjadi jelas.
Implikasi Keselamatan Negara
Model yang didistilasi secara haram tidak mempunyai pagar keselamatan yang dibina oleh syarikat AS ke dalam sistem perintis. Pagar keselamatan ini menghalang AI daripada digunakan untuk membangunkan senjata biologi, menjalankan operasi siber ofensif, atau membolehkan pengawasan massa.
Model yang dibina melalui distilasi haram tidak mungkin mengekalkan perlindungan tersebut. Makmal asing boleh menyalurkan keupayaan yang tidak dilindungi ke dalam sistem ketenteraan, risikan, dan pengawasan. Jika model yang didistilasi dijadikan sumber terbuka, keupayaan berbahaya akan tersebar secara bebas di luar kawalan mana-mana kerajaan.
Serangan distilasi juga melemahkan kawalan eksport AS. Tanpa penglihatan terhadap serangan ini, kemajuan pesat yang jelas oleh makmal-makmal ini boleh disalahertikan sebagai bukti bahawa kawalan eksport tidak berkesan. Pada hakikatnya, kemajuan itu bergantung pada keupayaan yang diekstrak daripada model Amerika, dan melaksanakan pengekstrakkan secara besar-besaran memerlukan cip canggih yang direka untuk disekat oleh kawalan eksport.
Langkah Balas Anthropic
Anthropic sedang melaksanakan pelbagai pertahanan terhadap serangan distilasi:
- Pengelas pengesanan: Sistem cap jari tingkah laku yang mengenal pasti corak distilasi dalam trafik API, termasuk elicitasi rantai pemikiran yang digunakan untuk membina data latihan penaakulan
- Perkongsian risikan: Petunjuk teknikal yang dikongsi dengan makmal AI lain, penyedia awan, dan pihak berkuasa yang berkaitan untuk gambaran menyeluruh landskap distilasi
- Kawalan akses: Pengesahan yang diperkukuh untuk akaun pendidikan, program penyelidikan keselamatan, dan organisasi permulaan — laluan yang paling kerap dieksploitasi
- Pagar keselamatan peringkat model: Langkah balas peringkat produk, API, dan model yang direka untuk mengurangkan keberkesanan output untuk distilasi haram tanpa merosakkan penggunaan yang sah
Anthropic juga telah menghubungkan penemuan ini dengan sokongan awalnya untuk keupayaan Claude Code Security bagi pembela, sebahagian daripada strategi yang lebih luas untuk memastikan keupayaan AI perintis kekal dilindungi.
Tindak Balas Seluruh Industri Diperlukan
Anthropic menegaskan bahawa tiada satu syarikat pun boleh menyelesaikan serangan distilasi secara bersendirian. Kempen-kempen ini mengeksploitasi perkhidmatan proksi komersial, platform awan pihak ketiga, dan jurang dalam pengesahan akaun yang merangkumi seluruh ekosistem AI.
Intensiti dan kecanggihan kempen-kempen ini yang semakin meningkat mengehadkan peluang untuk bertindak. Anthropic telah memerhatikan bahawa pelaku distilasi menyesuaikan diri dengan pantas: apabila model baharu dikeluarkan, usaha pengekstrakkan beralih dalam masa beberapa jam. Apabila akaun diharamkan, rangkaian proksi segera menggantikannya melalui seni bina kelompok hydra tanpa satu titik kegagalan.
Menangani ancaman ini memerlukan tindakan yang diselaraskan di kalangan syarikat AI, penyedia awan, dan pembuat dasar. Anthropic menerbitkan penemuannya untuk menjadikan bukti tersedia kepada semua pihak yang berkepentingan dalam melindungi keupayaan AI perintis daripada pengekstrakkan tanpa kebenaran. Syarikat itu menyeru standard seluruh industri mengenai pengesahan akaun, rangka kerja perkongsian risikan ancaman, dan sokongan dasar untuk penguatkuasaan terhadap distilasi haram secara besar-besaran.
Soalan Lazim
Apakah itu serangan distilasi AI?
Syarikat manakah yang mendistilasi keupayaan Claude?
Mengapa serangan distilasi merupakan risiko keselamatan negara?
Bagaimana DeepSeek, Moonshot, dan MiniMax mengakses Claude?
Bagaimana Anthropic bertindak balas terhadap serangan distilasi?
Apakah yang diekstrak DeepSeek secara khusus daripada Claude?
Kekal Dikemas Kini
Dapatkan berita AI terkini dalam peti masuk anda.
