Apa itu serangan distilasi AI?

Serangan distilasi AI melibatkan pelatihan model yang kurang mampu berdasarkan keluaran model yang lebih kuat tanpa otorisasi. Pesaing menghasilkan volume besar prompt yang dirancang dengan cermat untuk mengekstraksi kapabilitas tertentu dari model frontier, lalu menggunakan respons tersebut untuk melatih sistem mereka sendiri. Anthropic mengidentifikasi lebih dari 16 juta pertukaran terlarang di sekitar 24.000 akun penipuan yang digunakan oleh DeepSeek, Moonshot, dan MiniMax untuk mengekstraksi kapabilitas Claude.

Perusahaan mana saja yang mendistilasi kapabilitas Claude?

Anthropic mengidentifikasi tiga laboratorium AI Tiongkok yang melakukan kampanye distilasi skala industri: DeepSeek (lebih dari 150.000 pertukaran yang menargetkan penalaran dan cara mengatasi sensor), Moonshot AI (lebih dari 3,4 juta pertukaran yang menargetkan penalaran agensi dan penggunaan alat), dan MiniMax (lebih dari 13 juta pertukaran yang menargetkan pengkodean agensi dan orkestrasi alat).

Mengapa serangan distilasi merupakan risiko keamanan nasional?

Model yang didistilasi secara ilegal tidak memiliki pengaman keselamatan yang dibangun oleh perusahaan AS seperti Anthropic ke dalam sistem mereka. Model-model yang tidak terlindungi ini dapat digunakan untuk operasi siber ofensif, kampanye disinformasi, pengawasan massal, dan bahkan dukungan pengembangan senjata biologis. Jika model yang didistilasi menjadi sumber terbuka, kapabilitas berbahaya akan menyebar di luar kendali satu pemerintah mana pun, merusak kontrol ekspor yang dirancang untuk mempertahankan keunggulan AI Amerika.

Bagaimana DeepSeek, Moonshot, dan MiniMax mengakses Claude?

Laboratorium-laboratorium tersebut mengakali pembatasan akses regional Anthropic menggunakan layanan proxy komersial yang menjual kembali akses API Claude dalam skala besar. Layanan ini menjalankan arsitektur kluster hydra dengan jaringan luas akun penipuan yang tersebar di API Anthropic dan platform cloud pihak ketiga. Satu jaringan proxy mengelola lebih dari 20.000 akun penipuan secara bersamaan, mencampur lalu lintas distilasi dengan permintaan sah untuk menghindari deteksi.

Bagaimana Anthropic menanggapi serangan distilasi?

Anthropic mengerahkan berbagai tindakan balasan: pengklasifikasi sidik jari perilaku untuk mendeteksi pola distilasi dalam lalu lintas API, berbagi intelijen dengan lab AI lain dan penyedia cloud, verifikasi akun yang diperkuat, dan pengaman tingkat model yang mengurangi efektivitas keluaran untuk distilasi ilegal tanpa mengurangi layanan bagi pengguna yang sah. Anthropic juga menyerukan respons industri dan kebijakan yang terkoordinasi.

Apa yang secara spesifik diekstraksi DeepSeek dari Claude?

DeepSeek menargetkan kapabilitas penalaran Claude, tugas penilaian berbasis rubrik (menjadikan Claude berfungsi sebagai model hadiah untuk pembelajaran penguatan), dan alternatif aman sensor untuk pertanyaan sensitif secara politik. Mereka menggunakan teknik yang meminta Claude untuk mengartikulasikan penalaran internalnya langkah demi langkah, menghasilkan data pelatihan chain-of-thought dalam skala besar. Anthropic melacak akun-akun ini ke peneliti spesifik di DeepSeek.

Anthropic Mengungkap Serangan Distilasi oleh DeepSeek dan MiniMax

Anthropic Mengungkap Kampanye Distilasi Skala Industri

Anthropic telah memublikasikan bukti bahwa tiga laboratorium AI — DeepSeek, Moonshot AI, dan MiniMax — menjalankan kampanye terkoordinasi untuk mengekstraksi kapabilitas Claude melalui distilasi ilegal. Kampanye ini menghasilkan lebih dari 16 juta pertukaran dengan Claude melalui sekitar 24.000 akun penipuan, melanggar ketentuan layanan dan pembatasan akses regional Anthropic.

Distilasi adalah teknik yang sah di mana model yang lebih kecil dilatih berdasarkan keluaran dari model yang lebih kuat. Laboratorium frontier secara teratur mendistilasi model mereka sendiri untuk menciptakan versi yang lebih murah. Namun, ketika pesaing menggunakan distilasi tanpa otorisasi, mereka memperoleh kapabilitas yang kuat dengan sebagian kecil dari biaya dan waktu yang dibutuhkan untuk pengembangan independen.

Serangan tersebut menargetkan fitur Claude yang paling membedakan: penalaran agensi, penggunaan alat, dan pengkodean — kapabilitas yang sama yang mendukung Claude Opus 4.6 dan Claude Sonnet 4.6.

Skala dan Target Setiap Kampanye

Lab	Pertukaran	Target Utama
DeepSeek	150.000+	Penalaran, penilaian model hadiah, cara mengatasi sensor
Moonshot AI	3.4 juta+	Penalaran agensi, penggunaan alat, visi komputer
MiniMax	13 juta+	Pengkodean agensi, orkestrasi alat

DeepSeek menggunakan teknik yang patut diperhatikan: prompt yang meminta Claude untuk mengartikulasikan penalaran internalnya langkah demi langkah, secara efektif menghasilkan data pelatihan chain-of-thought dalam skala besar. Mereka juga menggunakan Claude untuk menghasilkan alternatif aman sensor untuk pertanyaan yang sensitif secara politik — kemungkinan untuk melatih model mereka sendiri agar mengarahkan percakapan menjauh dari topik yang disensor. Anthropic melacak akun-akun ini ke peneliti spesifik di lab tersebut.

Moonshot AI (model Kimi) menggunakan ratusan akun penipuan di berbagai jalur akses. Pada fase selanjutnya, Moonshot beralih ke pendekatan yang lebih terarah, mencoba mengekstraksi dan merekonstruksi jejak penalaran Claude.

MiniMax menjalankan kampanye terbesar dengan lebih dari 13 juta pertukaran. Anthropic mendeteksi kampanye ini saat masih aktif — sebelum MiniMax merilis model yang sedang mereka latih. Ketika Anthropic merilis model baru selama kampanye aktif, MiniMax beradaptasi dalam waktu 24 jam, mengalihkan hampir separuh lalu lintas mereka untuk menangkap kapabilitas terbaru.

Bagaimana Distiller Mengakali Pembatasan Akses

Anthropic tidak menawarkan akses komersial Claude di Tiongkok karena alasan keamanan nasional. Laboratorium-laboratorium tersebut mengakali ini melalui layanan proxy komersial yang menjual kembali akses model frontier dalam skala besar.

Layanan ini menjalankan apa yang disebut Anthropic sebagai arsitektur "kluster hydra": jaringan luas akun penipuan yang mendistribusikan lalu lintas di seluruh API dan platform cloud pihak ketiga. Ketika satu akun diblokir, akun baru menggantikannya. Satu jaringan proxy mengelola lebih dari 20.000 akun penipuan secara bersamaan, mencampur lalu lintas distilasi dengan permintaan pelanggan yang tidak terkait untuk mempersulit deteksi.

Yang membedakan distilasi dari penggunaan normal adalah polanya. Satu prompt mungkin tampak tidak berbahaya, tetapi ketika variasi tiba puluhan ribu kali di ratusan akun yang terkoordinasi, semuanya menargetkan kapabilitas sempit yang sama, polanya menjadi jelas.

Implikasi Keamanan Nasional

Model yang didistilasi secara ilegal tidak memiliki pengaman keselamatan yang dibangun oleh perusahaan AS ke dalam sistem frontier. Pengaman ini mencegah AI digunakan untuk mengembangkan senjata biologis, melakukan operasi siber ofensif, atau memungkinkan pengawasan massal.

Model yang dibangun melalui distilasi ilegal kemungkinan besar tidak akan mempertahankan perlindungan tersebut. Laboratorium asing dapat menyalurkan kapabilitas yang tidak terlindungi ke dalam sistem militer, intelijen, dan pengawasan. Jika model yang didistilasi menjadi sumber terbuka, kapabilitas berbahaya menyebar bebas di luar kendali pemerintah mana pun.

Serangan distilasi juga merusak kontrol ekspor AS. Tanpa visibilitas ke dalam serangan ini, kemajuan yang tampak cepat oleh laboratorium-laboratorium ini dapat diinterpretasikan secara tidak benar sebagai bukti bahwa kontrol ekspor tidak efektif. Kenyataannya, kemajuan tersebut bergantung pada kapabilitas yang diekstraksi dari model Amerika, dan pelaksanaan ekstraksi dalam skala besar membutuhkan chip canggih yang dirancang untuk dibatasi oleh kontrol ekspor.

Tindakan Balasan Anthropic

Anthropic mengerahkan berbagai pertahanan terhadap serangan distilasi:

Pengklasifikasi deteksi: Sistem sidik jari perilaku yang mengidentifikasi pola distilasi dalam lalu lintas API, termasuk elisitasi chain-of-thought yang digunakan untuk membangun data pelatihan penalaran
Berbagi intelijen: Indikator teknis yang dibagikan dengan lab AI lain, penyedia cloud, dan otoritas terkait untuk gambaran holistik lanskap distilasi
Kontrol akses: Verifikasi yang diperkuat untuk akun edukasi, program penelitian keamanan, dan organisasi startup — jalur yang paling sering dieksploitasi
Pengaman tingkat model: Tindakan balasan tingkat produk, API, dan model yang dirancang untuk mengurangi efektivitas keluaran untuk distilasi ilegal tanpa mengurangi penggunaan yang sah

Anthropic juga telah menghubungkan temuan ini dengan dukungan sebelumnya untuk kapabilitas Keamanan Kode Claude bagi para pembela, bagian dari strategi yang lebih luas untuk memastikan kapabilitas AI frontier tetap terlindungi.

Respons Seluruh Industri Dibutuhkan

Anthropic menekankan bahwa tidak ada satu perusahaan pun yang dapat menyelesaikan serangan distilasi sendirian. Kampanye ini mengeksploitasi layanan proxy komersial, platform cloud pihak ketiga, dan celah dalam verifikasi akun yang mencakup seluruh ekosistem AI.

Intensitas dan kecanggihan kampanye ini yang terus meningkat mempersempit jendela untuk bertindak. Anthropic telah mengamati bahwa para distiller beradaptasi dengan cepat: ketika model baru dirilis, upaya ekstraksi beralih dalam hitungan jam. Ketika akun diblokir, jaringan proxy segera menggantinya melalui arsitektur kluster hydra tanpa satu titik kegagalan.

Mengatasi ancaman ini membutuhkan tindakan terkoordinasi antara perusahaan AI, penyedia cloud, dan pembuat kebijakan. Anthropic memublikasikan temuannya untuk menyediakan bukti bagi semua pihak yang berkepentingan dalam melindungi kapabilitas AI frontier dari ekstraksi yang tidak sah. Perusahaan ini menyerukan standar seluruh industri tentang verifikasi akun, kerangka kerja intelijen ancaman bersama, dan dukungan kebijakan untuk penegakan hukum terhadap distilasi ilegal dalam skala besar.