Anthropic Mengungkap Kampanye Distilasi Skala Industri
Anthropic telah memublikasikan bukti bahwa tiga laboratorium AI — DeepSeek, Moonshot AI, dan MiniMax — menjalankan kampanye terkoordinasi untuk mengekstraksi kapabilitas Claude melalui distilasi ilegal. Kampanye ini menghasilkan lebih dari 16 juta pertukaran dengan Claude melalui sekitar 24.000 akun penipuan, melanggar ketentuan layanan dan pembatasan akses regional Anthropic.
Distilasi adalah teknik yang sah di mana model yang lebih kecil dilatih berdasarkan keluaran dari model yang lebih kuat. Laboratorium frontier secara teratur mendistilasi model mereka sendiri untuk menciptakan versi yang lebih murah. Namun, ketika pesaing menggunakan distilasi tanpa otorisasi, mereka memperoleh kapabilitas yang kuat dengan sebagian kecil dari biaya dan waktu yang dibutuhkan untuk pengembangan independen.
Serangan tersebut menargetkan fitur Claude yang paling membedakan: penalaran agensi, penggunaan alat, dan pengkodean — kapabilitas yang sama yang mendukung Claude Opus 4.6 dan Claude Sonnet 4.6.
Skala dan Target Setiap Kampanye
| Lab | Pertukaran | Target Utama |
|---|---|---|
| DeepSeek | 150.000+ | Penalaran, penilaian model hadiah, cara mengatasi sensor |
| Moonshot AI | 3.4 juta+ | Penalaran agensi, penggunaan alat, visi komputer |
| MiniMax | 13 juta+ | Pengkodean agensi, orkestrasi alat |
DeepSeek menggunakan teknik yang patut diperhatikan: prompt yang meminta Claude untuk mengartikulasikan penalaran internalnya langkah demi langkah, secara efektif menghasilkan data pelatihan chain-of-thought dalam skala besar. Mereka juga menggunakan Claude untuk menghasilkan alternatif aman sensor untuk pertanyaan yang sensitif secara politik — kemungkinan untuk melatih model mereka sendiri agar mengarahkan percakapan menjauh dari topik yang disensor. Anthropic melacak akun-akun ini ke peneliti spesifik di lab tersebut.
Moonshot AI (model Kimi) menggunakan ratusan akun penipuan di berbagai jalur akses. Pada fase selanjutnya, Moonshot beralih ke pendekatan yang lebih terarah, mencoba mengekstraksi dan merekonstruksi jejak penalaran Claude.
MiniMax menjalankan kampanye terbesar dengan lebih dari 13 juta pertukaran. Anthropic mendeteksi kampanye ini saat masih aktif — sebelum MiniMax merilis model yang sedang mereka latih. Ketika Anthropic merilis model baru selama kampanye aktif, MiniMax beradaptasi dalam waktu 24 jam, mengalihkan hampir separuh lalu lintas mereka untuk menangkap kapabilitas terbaru.
Bagaimana Distiller Mengakali Pembatasan Akses
Anthropic tidak menawarkan akses komersial Claude di Tiongkok karena alasan keamanan nasional. Laboratorium-laboratorium tersebut mengakali ini melalui layanan proxy komersial yang menjual kembali akses model frontier dalam skala besar.
Layanan ini menjalankan apa yang disebut Anthropic sebagai arsitektur "kluster hydra": jaringan luas akun penipuan yang mendistribusikan lalu lintas di seluruh API dan platform cloud pihak ketiga. Ketika satu akun diblokir, akun baru menggantikannya. Satu jaringan proxy mengelola lebih dari 20.000 akun penipuan secara bersamaan, mencampur lalu lintas distilasi dengan permintaan pelanggan yang tidak terkait untuk mempersulit deteksi.
Yang membedakan distilasi dari penggunaan normal adalah polanya. Satu prompt mungkin tampak tidak berbahaya, tetapi ketika variasi tiba puluhan ribu kali di ratusan akun yang terkoordinasi, semuanya menargetkan kapabilitas sempit yang sama, polanya menjadi jelas.
Implikasi Keamanan Nasional
Model yang didistilasi secara ilegal tidak memiliki pengaman keselamatan yang dibangun oleh perusahaan AS ke dalam sistem frontier. Pengaman ini mencegah AI digunakan untuk mengembangkan senjata biologis, melakukan operasi siber ofensif, atau memungkinkan pengawasan massal.
Model yang dibangun melalui distilasi ilegal kemungkinan besar tidak akan mempertahankan perlindungan tersebut. Laboratorium asing dapat menyalurkan kapabilitas yang tidak terlindungi ke dalam sistem militer, intelijen, dan pengawasan. Jika model yang didistilasi menjadi sumber terbuka, kapabilitas berbahaya menyebar bebas di luar kendali pemerintah mana pun.
Serangan distilasi juga merusak kontrol ekspor AS. Tanpa visibilitas ke dalam serangan ini, kemajuan yang tampak cepat oleh laboratorium-laboratorium ini dapat diinterpretasikan secara tidak benar sebagai bukti bahwa kontrol ekspor tidak efektif. Kenyataannya, kemajuan tersebut bergantung pada kapabilitas yang diekstraksi dari model Amerika, dan pelaksanaan ekstraksi dalam skala besar membutuhkan chip canggih yang dirancang untuk dibatasi oleh kontrol ekspor.
Tindakan Balasan Anthropic
Anthropic mengerahkan berbagai pertahanan terhadap serangan distilasi:
- Pengklasifikasi deteksi: Sistem sidik jari perilaku yang mengidentifikasi pola distilasi dalam lalu lintas API, termasuk elisitasi chain-of-thought yang digunakan untuk membangun data pelatihan penalaran
- Berbagi intelijen: Indikator teknis yang dibagikan dengan lab AI lain, penyedia cloud, dan otoritas terkait untuk gambaran holistik lanskap distilasi
- Kontrol akses: Verifikasi yang diperkuat untuk akun edukasi, program penelitian keamanan, dan organisasi startup — jalur yang paling sering dieksploitasi
- Pengaman tingkat model: Tindakan balasan tingkat produk, API, dan model yang dirancang untuk mengurangi efektivitas keluaran untuk distilasi ilegal tanpa mengurangi penggunaan yang sah
Anthropic juga telah menghubungkan temuan ini dengan dukungan sebelumnya untuk kapabilitas Keamanan Kode Claude bagi para pembela, bagian dari strategi yang lebih luas untuk memastikan kapabilitas AI frontier tetap terlindungi.
Respons Seluruh Industri Dibutuhkan
Anthropic menekankan bahwa tidak ada satu perusahaan pun yang dapat menyelesaikan serangan distilasi sendirian. Kampanye ini mengeksploitasi layanan proxy komersial, platform cloud pihak ketiga, dan celah dalam verifikasi akun yang mencakup seluruh ekosistem AI.
Intensitas dan kecanggihan kampanye ini yang terus meningkat mempersempit jendela untuk bertindak. Anthropic telah mengamati bahwa para distiller beradaptasi dengan cepat: ketika model baru dirilis, upaya ekstraksi beralih dalam hitungan jam. Ketika akun diblokir, jaringan proxy segera menggantinya melalui arsitektur kluster hydra tanpa satu titik kegagalan.
Mengatasi ancaman ini membutuhkan tindakan terkoordinasi antara perusahaan AI, penyedia cloud, dan pembuat kebijakan. Anthropic memublikasikan temuannya untuk menyediakan bukti bagi semua pihak yang berkepentingan dalam melindungi kapabilitas AI frontier dari ekstraksi yang tidak sah. Perusahaan ini menyerukan standar seluruh industri tentang verifikasi akun, kerangka kerja intelijen ancaman bersama, dan dukungan kebijakan untuk penegakan hukum terhadap distilasi ilegal dalam skala besar.
Pertanyaan yang Sering Diajukan
Apa itu serangan distilasi AI?
Perusahaan mana saja yang mendistilasi kapabilitas Claude?
Mengapa serangan distilasi merupakan risiko keamanan nasional?
Bagaimana DeepSeek, Moonshot, dan MiniMax mengakses Claude?
Bagaimana Anthropic menanggapi serangan distilasi?
Apa yang secara spesifik diekstraksi DeepSeek dari Claude?
Tetap Update
Dapatkan berita AI terbaru di inbox Anda.
