Anthropic เปิดเผยการโจมตีแบบกลั่นกรองโดย DeepSeek และ MiniMax

Anthropic เปิดเผยการโจมตีแบบกลั่นกรองระดับอุตสาหกรรม

Anthropic ได้เผยแพร่หลักฐานที่แสดงว่าห้องปฏิบัติการ AI สามแห่ง ได้แก่ DeepSeek, Moonshot AI และ MiniMax ได้ดำเนินการโจมตีแบบประสานงานเพื่อสกัดความสามารถของ Claude ผ่านการกลั่นกรองที่ผิดกฎหมาย แคมเปญเหล่านี้สร้างการแลกเปลี่ยนข้อมูลกับ Claude มากกว่า 16 ล้านครั้ง ผ่านบัญชีฉ้อโกงประมาณ 24,000 บัญชี ซึ่งเป็นการละเมิดข้อกำหนดในการให้บริการและข้อจำกัดการเข้าถึงในภูมิภาคของ Anthropic

การกลั่นกรองเป็นเทคนิคที่ถูกต้องตามกฎหมาย ซึ่งโมเดลขนาดเล็กจะถูกฝึกโดยใช้เอาต์พุตจากโมเดลที่แข็งแกร่งกว่า ห้องปฏิบัติการแนวหน้ามักจะกลั่นกรองโมเดลของตนเองเพื่อสร้างเวอร์ชันที่ประหยัดต้นทุนมากขึ้น แต่เมื่อคู่แข่งใช้การกลั่นกรองโดยไม่ได้รับอนุญาต พวกเขาจะได้รับความสามารถอันทรงพลังด้วยต้นทุนและเวลาเพียงเสี้ยวเดียวของที่จำเป็นสำหรับการพัฒนาอย่างอิสระ

การโจมตีมุ่งเป้าไปที่คุณสมบัติที่แตกต่างกันมากที่สุดของ Claude: การให้เหตุผลแบบตัวแทน, การใช้เครื่องมือ และการเขียนโค้ด — ซึ่งเป็นความสามารถเดียวกันที่ขับเคลื่อน Claude Opus 4.6 และ Claude Sonnet 4.6

ขนาดและเป้าหมายของแต่ละแคมเปญ

ห้องปฏิบัติการ	การแลกเปลี่ยนข้อมูล	เป้าหมายหลัก
DeepSeek	150,000+	การให้เหตุผล, การให้คะแนนโมเดลรางวัล, การเลี่ยงผ่านการเซ็นเซอร์
Moonshot AI	3.4 ล้าน+	การให้เหตุผลแบบตัวแทน, การใช้เครื่องมือ, คอมพิวเตอร์วิทัศน์
MiniMax	13 ล้าน+	การเขียนโค้ดแบบตัวแทน, การจัดการเครื่องมือ

DeepSeek ใช้เทคนิคที่น่าสังเกต: พรอมต์ที่ขอให้ Claude อธิบายการให้เหตุผลภายในของมันทีละขั้นตอน ซึ่งเป็นการสร้างข้อมูลการฝึกแบบ chain-of-thought ในวงกว้างได้อย่างมีประสิทธิภาพ พวกเขายังใช้ Claude เพื่อสร้างทางเลือกที่ปลอดภัยจากการเซ็นเซอร์สำหรับคำถามที่ละเอียดอ่อนทางการเมือง — ซึ่งน่าจะเป็นการฝึกโมเดลของตนเองเพื่อเบี่ยงเบนการสนทนาออกจากหัวข้อที่ถูกเซ็นเซอร์ Anthropic สืบรอยบัญชีเหล่านี้ไปยังนักวิจัยเฉพาะในห้องปฏิบัติการดังกล่าว

Moonshot AI (โมเดล Kimi) ใช้บัญชีฉ้อโกงหลายร้อยบัญชีผ่านช่องทางการเข้าถึงที่หลากหลาย ในระยะต่อมา Moonshot ได้เปลี่ยนไปใช้แนวทางที่ตรงเป้าหมายมากขึ้น โดยพยายามสกัดและสร้างร่องรอยการให้เหตุผลของ Claude ขึ้นมาใหม่

MiniMax ดำเนินการโจมตีที่ใหญ่ที่สุดด้วยการแลกเปลี่ยนข้อมูลมากกว่า 13 ล้านครั้ง Anthropic ตรวจพบแคมเปญนี้ในขณะที่ยังคงดำเนินอยู่ — ก่อนที่ MiniMax จะเปิดตัวโมเดลที่กำลังฝึกอบรม เมื่อ Anthropic เปิดตัวโมเดลใหม่ในระหว่างแคมเปญที่กำลังดำเนินอยู่ MiniMax ได้ปรับเปลี่ยนภายใน 24 ชั่วโมง โดยเปลี่ยนเส้นทางการรับส่งข้อมูลเกือบครึ่งหนึ่งเพื่อดึงเอาความสามารถล่าสุดไป

ผู้กลั่นกรองเลี่ยงข้อจำกัดการเข้าถึงได้อย่างไร

Anthropic ไม่ได้ให้บริการการเข้าถึง Claude ในเชิงพาณิชย์ในประเทศจีนด้วยเหตุผลด้านความมั่นคงของชาติ ห้องปฏิบัติการเหล่านี้เลี่ยงข้อจำกัดนี้โดยใช้บริการพร็อกซีเชิงพาณิชย์ที่ขายต่อการเข้าถึงโมเดลแนวหน้าในวงกว้าง

บริการเหล่านี้ใช้สิ่งที่ Anthropic เรียกว่าสถาปัตยกรรม 'ไฮดราคลัสเตอร์': เครือข่ายบัญชีฉ้อโกงที่แผ่ขยายออกไป ซึ่งกระจายปริมาณการใช้งานทั่วทั้ง API และแพลตฟอร์มคลาวด์ของบุคคลที่สาม เมื่อบัญชีหนึ่งถูกแบน บัญชีใหม่จะเข้ามาแทนที่ เครือข่ายพร็อกซีหนึ่งแห่งจัดการบัญชีฉ้อโกงมากกว่า 20,000 บัญชีพร้อมกัน โดยผสมผสานปริมาณการใช้งานการกลั่นกรองเข้ากับการร้องขอของลูกค้าที่ไม่เกี่ยวข้องเพื่อทำให้การตรวจจับทำได้ยากขึ้น

สิ่งที่ทำให้การกลั่นกรองแตกต่างจากการใช้งานปกติคือรูปแบบ พรอมต์เดียวอาจดูไม่เป็นอันตราย แต่เมื่อมีรูปแบบที่แตกต่างกันเข้ามาหลายหมื่นครั้งจากบัญชีที่ประสานงานกันหลายร้อยบัญชี โดยทั้งหมดมุ่งเป้าไปที่ความสามารถแคบๆ เดียวกัน รูปแบบดังกล่าวก็จะชัดเจน

นัยยะต่อความมั่นคงของชาติ

โมเดลที่ถูกกลั่นกรองอย่างผิดกฎหมายขาดมาตรการความปลอดภัยที่บริษัทในสหรัฐฯ สร้างขึ้นในระบบแนวหน้า มาตรการป้องกันเหล่านี้ช่วยป้องกันไม่ให้ AI ถูกนำไปใช้ในการพัฒนาอาวุธชีวภาพ, ดำเนินการปฏิบัติการไซเบอร์เชิงรุก หรือเปิดใช้งานการเฝ้าระวังจำนวนมาก

โมเดลที่สร้างขึ้นผ่านการกลั่นกรองที่ผิดกฎหมายไม่น่าจะยังคงมีการป้องกันเหล่านั้นอยู่ ห้องปฏิบัติการต่างประเทศสามารถป้อนความสามารถที่ไม่มีการป้องกันเข้าสู่ระบบทางทหาร, หน่วยข่าวกรอง และระบบเฝ้าระวังได้ หากโมเดลที่ถูกกลั่นกรองถูกเผยแพร่แบบโอเพนซอร์ส ความสามารถที่เป็นอันตรายจะแพร่กระจายอย่างอิสระเกินการควบคุมของรัฐบาลใดๆ

การโจมตีแบบกลั่นกรองยังบ่อนทำลายการควบคุมการส่งออกของสหรัฐฯ หากไม่มีข้อมูลเชิงลึกเกี่ยวกับการโจมตีเหล่านี้ ความก้าวหน้าที่รวดเร็วอย่างเห็นได้ชัดของห้องปฏิบัติการเหล่านี้อาจถูกตีความผิดพลาดว่าเป็นหลักฐานว่าการควบคุมการส่งออกไม่มีประสิทธิภาพ ในความเป็นจริงแล้ว ความก้าวหน้าเหล่านั้นขึ้นอยู่กับความสามารถที่ถูกสกัดมาจากโมเดลของอเมริกา และการดำเนินการสกัดในวงกว้างต้องใช้ชิปขั้นสูงที่การควบคุมการส่งออกถูกออกแบบมาเพื่อจำกัด

มาตรการตอบโต้ของ Anthropic

Anthropic กำลังใช้มาตรการป้องกันหลายอย่างเพื่อต่อต้านการโจมตีแบบกลั่นกรอง:

ตัวแยกประเภทการตรวจจับ: ระบบระบุลายนิ้วมือพฤติกรรมที่ระบุรูปแบบการกลั่นกรองในการรับส่งข้อมูล API รวมถึงการดึงข้อมูล chain-of-thought ที่ใช้ในการสร้างข้อมูลการฝึกการให้เหตุผล
การแบ่งปันข้อมูลข่าวกรอง: ตัวบ่งชี้ทางเทคนิคที่แบ่งปันกับห้องปฏิบัติการ AI อื่นๆ, ผู้ให้บริการคลาวด์ และหน่วยงานที่เกี่ยวข้อง เพื่อให้เห็นภาพรวมที่ครอบคลุมของสถานการณ์การกลั่นกรอง
การควบคุมการเข้าถึง: การยืนยันที่เข้มงวดขึ้นสำหรับบัญชีเพื่อการศึกษา, โปรแกรมวิจัยด้านความปลอดภัย และองค์กรสตาร์ทอัพ — ซึ่งเป็นช่องทางที่ถูกใช้ประโยชน์บ่อยที่สุด
มาตรการป้องกันระดับโมเดล: มาตรการตอบโต้ระดับผลิตภัณฑ์, API และโมเดลที่ออกแบบมาเพื่อลดประสิทธิภาพของเอาต์พุตสำหรับการกลั่นกรองที่ผิดกฎหมายโดยไม่ลดทอนการใช้งานที่ถูกต้องตามกฎหมาย

Anthropic ยังได้เชื่อมโยโยงข้อมูลเหล่านี้เข้ากับการสนับสนุนก่อนหน้านี้สำหรับความสามารถ ความปลอดภัยของโค้ด Claude สำหรับผู้ป้องกัน ซึ่งเป็นส่วนหนึ่งของกลยุทธ์ที่กว้างขึ้นเพื่อให้มั่นใจว่าความสามารถ AI แนวหน้ายังคงได้รับการปกป้อง

จำเป็นต้องมีการตอบสนองจากอุตสาหกรรมในวงกว้าง

Anthropic เน้นย้ำว่าไม่มีบริษัทใดบริษัทหนึ่งสามารถแก้ไขปัญหาการโจมตีแบบกลั่นกรองได้เพียงลำพัง แคมเปญเหล่านี้ใช้ประโยชน์จากบริการพร็อกซีเชิงพาณิชย์, แพลตฟอร์มคลาวด์ของบุคคลที่สาม และช่องโหว่ในการยืนยันบัญชีที่ครอบคลุมระบบนิเวศ AI ทั้งหมด

ความเข้มข้นและความซับซ้อนที่เพิ่มขึ้นของแคมเปญเหล่านี้ทำให้มีเวลาดำเนินการน้อยลง Anthropic สังเกตว่าผู้กลั่นกรองปรับตัวได้อย่างรวดเร็ว: เมื่อโมเดลใหม่ถูกปล่อยออกมา ความพยายามในการสกัดจะเปลี่ยนไปภายในไม่กี่ชั่วโมง เมื่อบัญชีถูกแบน เครือข่ายพร็อกซีจะเข้ามาแทนที่ทันทีผ่านสถาปัตยกรรมไฮดราคลัสเตอร์ที่ไม่มีจุดบกพร่องเดียว

การแก้ไขภัยคุกคามนี้ต้องอาศัยการประสานงานระหว่างบริษัท AI, ผู้ให้บริการคลาวด์ และผู้กำหนดนโยบาย Anthropic เผยแพร่ผลการวิจัยเพื่อให้หลักฐานดังกล่าวเป็นที่เข้าถึงได้สำหรับทุกคนที่มีส่วนได้ส่วนเสียในการปกป้องความสามารถ AI แนวหน้าจากการสกัดที่ผิดกฎหมาย บริษัทเรียกร้องให้มีมาตรฐานการยืนยันบัญชีทั่วทั้งอุตสาหกรรม, กรอบการแบ่งปันข้อมูลภัยคุกคาม และการสนับสนุนนโยบายเพื่อบังคับใช้กฎหมายต่อการกลั่นกรองที่ผิดกฎหมายในวงกว้าง

แหล่งที่มา

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

คำถามที่พบบ่อย

การโจมตีแบบกลั่นกรอง AI คืออะไร?

การโจมตีแบบกลั่นกรอง AI คือการฝึกโมเดลที่มีความสามารถน้อยกว่าโดยใช้เอาต์พุตจากโมเดลที่แข็งแกร่งกว่าโดยไม่ได้รับอนุญาต คู่แข่งจะสร้างพรอมต์จำนวนมากที่ถูกสร้างขึ้นอย่างระมัดระวังเพื่อดึงความสามารถเฉพาะจากโมเดลแนวหน้า จากนั้นใช้การตอบสนองเหล่านั้นเพื่อฝึกระบบของตนเอง Anthropic ระบุการแลกเปลี่ยนข้อมูลที่ผิดกฎหมายกว่า 16 ล้านครั้ง จากบัญชีฉ้อโกงประมาณ 24,000 บัญชี ที่ DeepSeek, Moonshot และ MiniMax ใช้เพื่อสกัดความสามารถของ Claude

บริษัทใดบ้างที่กลั่นกรองความสามารถของ Claude?

Anthropic ระบุห้องปฏิบัติการ AI ของจีนสามแห่งที่ดำเนินการโจมตีแบบกลั่นกรองในระดับอุตสาหกรรม ได้แก่ DeepSeek (มากกว่า 150,000 การแลกเปลี่ยนข้อมูลโดยมุ่งเป้าไปที่การให้เหตุผลและการเลี่ยงผ่านการเซ็นเซอร์), Moonshot AI (มากกว่า 3.4 ล้านการแลกเปลี่ยนข้อมูลโดยมุ่งเป้าไปที่การให้เหตุผลแบบตัวแทนและการใช้เครื่องมือ) และ MiniMax (มากกว่า 13 ล้านการแลกเปลี่ยนข้อมูลโดยมุ่งเป้าไปที่การเขียนโค้ดแบบตัวแทนและการจัดการเครื่องมือ)

ทำไมการโจมตีแบบกลั่นกรองจึงเป็นความเสี่ยงต่อความมั่นคงของชาติ?

โมเดลที่ถูกกลั่นกรองอย่างผิดกฎหมายขาดมาตรการความปลอดภัยที่บริษัทในสหรัฐฯ อย่าง Anthropic สร้างขึ้นในระบบของตน โมเดลที่ไม่มีการป้องกันเหล่านี้สามารถนำไปใช้ในการปฏิบัติการไซเบอร์เชิงรุก, แคมเปญบิดเบือนข้อมูล, การเฝ้าระวังจำนวนมาก และแม้แต่การสนับสนุนการพัฒนาอาวุธชีวภาพ หากโมเดลที่ถูกกลั่นกรองถูกเผยแพร่แบบโอเพนซอร์ส ความสามารถที่เป็นอันตรายจะแพร่กระจายออกไปเกินการควบคุมของรัฐบาลใดๆ ซึ่งเป็นการบ่อนทำลายการควบคุมการส่งออกที่ออกแบบมาเพื่อรักษาสิทธิประโยชน์ด้าน AI ของอเมริกา

DeepSeek, Moonshot และ MiniMax เข้าถึง Claude ได้อย่างไร?

ห้องปฏิบัติการเหล่านี้เลี่ยงข้อจำกัดการเข้าถึงในภูมิภาคของ Anthropic โดยใช้บริการพร็อกซีเชิงพาณิชย์ที่ขายต่อการเข้าถึง Claude API ในวงกว้าง บริการเหล่านี้ใช้สถาปัตยกรรม 'ไฮดราคลัสเตอร์' ที่มีเครือข่ายบัญชีฉ้อโกงจำนวนมากกระจายอยู่ทั่ว API ของ Anthropic และแพลตฟอร์มคลาวด์ของบุคคลที่สาม เครือข่ายพร็อกซีหนึ่งแห่งจัดการบัญชีฉ้อโกงมากกว่า 20,000 บัญชีพร้อมกัน โดยผสมผสานปริมาณการใช้งานกลั่นกรองเข้ากับการร้องขอที่ถูกต้องตามกฎหมายเพื่อหลีกเลี่ยงการตรวจจับ

Anthropic กำลังตอบสนองต่อการโจมตีแบบกลั่นกรองอย่างไร?

Anthropic กำลังใช้มาตรการตอบโต้หลายอย่าง: ตัวแยกประเภทการตรวจสอบพฤติกรรมเพื่อตรวจจับรูปแบบการกลั่นกรองในการรับส่งข้อมูล API, การแบ่งปันข้อมูลข่าวกรองกับห้องปฏิบัติการ AI และผู้ให้บริการคลาวด์อื่นๆ, การยืนยันบัญชีที่เข้มงวดขึ้น และมาตรการป้องกันในระดับโมเดลที่ลดประสิทธิภาพของเอาต์พุตสำหรับการกลั่นกรองที่ผิดกฎหมายโดยไม่ลดทอนการบริการสำหรับผู้ใช้ที่ถูกต้องตามกฎหมาย Anthropic ยังเรียกร้องให้มีการตอบสนองร่วมกันจากอุตสาหกรรมและนโยบาย

DeepSeek สกัดอะไรจาก Claude โดยเฉพาะ?

DeepSeek มุ่งเป้าไปที่ความสามารถในการให้เหตุผลของ Claude, งานการให้คะแนนตามเกณฑ์ (ทำให้ Claude ทำหน้าที่เป็นโมเดลรางวัลสำหรับการเรียนรู้แบบเสริมกำลัง) และทางเลือกที่ปลอดภัยจากการเซ็นเซอร์สำหรับคำถามที่ละเอียดอ่อนทางการเมือง พวกเขาใช้เทคนิคที่ขอให้ Claude อธิบายการให้เหตุผลภายในของมันทีละขั้นตอน สร้างข้อมูลการฝึกแบบ chain-of-thought ในวงกว้าง Anthropic สืบรอยบัญชีเหล่านี้ไปยังนักวิจัยเฉพาะที่ DeepSeek

อัปเดตข่าวสาร

รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ

แชร์