Anthropic เปิดเผยการโจมตีแบบกลั่นกรองระดับอุตสาหกรรม
Anthropic ได้เผยแพร่หลักฐานที่แสดงว่าห้องปฏิบัติการ AI สามแห่ง ได้แก่ DeepSeek, Moonshot AI และ MiniMax ได้ดำเนินการโจมตีแบบประสานงานเพื่อสกัดความสามารถของ Claude ผ่านการกลั่นกรองที่ผิดกฎหมาย แคมเปญเหล่านี้สร้างการแลกเปลี่ยนข้อมูลกับ Claude มากกว่า 16 ล้านครั้ง ผ่านบัญชีฉ้อโกงประมาณ 24,000 บัญชี ซึ่งเป็นการละเมิดข้อกำหนดในการให้บริการและข้อจำกัดการเข้าถึงในภูมิภาคของ Anthropic
การกลั่นกรองเป็นเทคนิคที่ถูกต้องตามกฎหมาย ซึ่งโมเดลขนาดเล็กจะถูกฝึกโดยใช้เอาต์พุตจากโมเดลที่แข็งแกร่งกว่า ห้องปฏิบัติการแนวหน้ามักจะกลั่นกรองโมเดลของตนเองเพื่อสร้างเวอร์ชันที่ประหยัดต้นทุนมากขึ้น แต่เมื่อคู่แข่งใช้การกลั่นกรองโดยไม่ได้รับอนุญาต พวกเขาจะได้รับความสามารถอันทรงพลังด้วยต้นทุนและเวลาเพียงเสี้ยวเดียวของที่จำเป็นสำหรับการพัฒนาอย่างอิสระ
การโจมตีมุ่งเป้าไปที่คุณสมบัติที่แตกต่างกันมากที่สุดของ Claude: การให้เหตุผลแบบตัวแทน, การใช้เครื่องมือ และการเขียนโค้ด — ซึ่งเป็นความสามารถเดียวกันที่ขับเคลื่อน Claude Opus 4.6 และ Claude Sonnet 4.6
ขนาดและเป้าหมายของแต่ละแคมเปญ
| ห้องปฏิบัติการ | การแลกเปลี่ยนข้อมูล | เป้าหมายหลัก |
|---|---|---|
| DeepSeek | 150,000+ | การให้เหตุผล, การให้คะแนนโมเดลรางวัล, การเลี่ยงผ่านการเซ็นเซอร์ |
| Moonshot AI | 3.4 ล้าน+ | การให้เหตุผลแบบตัวแทน, การใช้เครื่องมือ, คอมพิวเตอร์วิทัศน์ |
| MiniMax | 13 ล้าน+ | การเขียนโค้ดแบบตัวแทน, การจัดการเครื่องมือ |
DeepSeek ใช้เทคนิคที่น่าสังเกต: พรอมต์ที่ขอให้ Claude อธิบายการให้เหตุผลภายในของมันทีละขั้นตอน ซึ่งเป็นการสร้างข้อมูลการฝึกแบบ chain-of-thought ในวงกว้างได้อย่างมีประสิทธิภาพ พวกเขายังใช้ Claude เพื่อสร้างทางเลือกที่ปลอดภัยจากการเซ็นเซอร์สำหรับคำถามที่ละเอียดอ่อนทางการเมือง — ซึ่งน่าจะเป็นการฝึกโมเดลของตนเองเพื่อเบี่ยงเบนการสนทนาออกจากหัวข้อที่ถูกเซ็นเซอร์ Anthropic สืบรอยบัญชีเหล่านี้ไปยังนักวิจัยเฉพาะในห้องปฏิบัติการดังกล่าว
Moonshot AI (โมเดล Kimi) ใช้บัญชีฉ้อโกงหลายร้อยบัญชีผ่านช่องทางการเข้าถึงที่หลากหลาย ในระยะต่อมา Moonshot ได้เปลี่ยนไปใช้แนวทางที่ตรงเป้าหมายมากขึ้น โดยพยายามสกัดและสร้างร่องรอยการให้เหตุผลของ Claude ขึ้นมาใหม่
MiniMax ดำเนินการโจมตีที่ใหญ่ที่สุดด้วยการแลกเปลี่ยนข้อมูลมากกว่า 13 ล้านครั้ง Anthropic ตรวจพบแคมเปญนี้ในขณะที่ยังคงดำเนินอยู่ — ก่อนที่ MiniMax จะเปิดตัวโมเดลที่กำลังฝึกอบรม เมื่อ Anthropic เปิดตัวโมเดลใหม่ในระหว่างแคมเปญที่กำลังดำเนินอยู่ MiniMax ได้ปรับเปลี่ยนภายใน 24 ชั่วโมง โดยเปลี่ยนเส้นทางการรับส่งข้อมูลเกือบครึ่งหนึ่งเพื่อดึงเอาความสามารถล่าสุดไป
ผู้กลั่นกรองเลี่ยงข้อจำกัดการเข้าถึงได้อย่างไร
Anthropic ไม่ได้ให้บริการการเข้าถึง Claude ในเชิงพาณิชย์ในประเทศจีนด้วยเหตุผลด้านความมั่นคงของชาติ ห้องปฏิบัติการเหล่านี้เลี่ยงข้อจำกัดนี้โดยใช้บริการพร็อกซีเชิงพาณิชย์ที่ขายต่อการเข้าถึงโมเดลแนวหน้าในวงกว้าง
บริการเหล่านี้ใช้สิ่งที่ Anthropic เรียกว่าสถาปัตยกรรม 'ไฮดราคลัสเตอร์': เครือข่ายบัญชีฉ้อโกงที่แผ่ขยายออกไป ซึ่งกระจายปริมาณการใช้งานทั่วทั้ง API และแพลตฟอร์มคลาวด์ของบุคคลที่สาม เมื่อบัญชีหนึ่งถูกแบน บัญชีใหม่จะเข้ามาแทนที่ เครือข่ายพร็อกซีหนึ่งแห่งจัดการบัญชีฉ้อโกงมากกว่า 20,000 บัญชีพร้อมกัน โดยผสมผสานปริมาณการใช้งานการกลั่นกรองเข้ากับการร้องขอของลูกค้าที่ไม่เกี่ยวข้องเพื่อทำให้การตรวจจับทำได้ยากขึ้น
สิ่งที่ทำให้การกลั่นกรองแตกต่างจากการใช้งานปกติคือรูปแบบ พรอมต์เดียวอาจดูไม่เป็นอันตราย แต่เมื่อมีรูปแบบที่แตกต่างกันเข้ามาหลายหมื่นครั้งจากบัญชีที่ประสานงานกันหลายร้อยบัญชี โดยทั้งหมดมุ่งเป้าไปที่ความสามารถแคบๆ เดียวกัน รูปแบบดังกล่าวก็จะชัดเจน
นัยยะต่อความมั่นคงของชาติ
โมเดลที่ถูกกลั่นกรองอย่างผิดกฎหมายขาดมาตรการความปลอดภัยที่บริษัทในสหรัฐฯ สร้างขึ้นในระบบแนวหน้า มาตรการป้องกันเหล่านี้ช่วยป้องกันไม่ให้ AI ถูกนำไปใช้ในการพัฒนาอาวุธชีวภาพ, ดำเนินการปฏิบัติการไซเบอร์เชิงรุก หรือเปิดใช้งานการเฝ้าระวังจำนวนมาก
โมเดลที่สร้างขึ้นผ่านการกลั่นกรองที่ผิดกฎหมายไม่น่าจะยังคงมีการป้องกันเหล่านั้นอยู่ ห้องปฏิบัติการต่างประเทศสามารถป้อนความสามารถที่ไม่มีการป้องกันเข้าสู่ระบบทางทหาร, หน่วยข่าวกรอง และระบบเฝ้าระวังได้ หากโมเดลที่ถูกกลั่นกรองถูกเผยแพร่แบบโอเพนซอร์ส ความสามารถที่เป็นอันตรายจะแพร่กระจายอย่างอิสระเกินการควบคุมของรัฐบาลใดๆ
การโจมตีแบบกลั่นกรองยังบ่อนทำลายการควบคุมการส่งออกของสหรัฐฯ หากไม่มีข้อมูลเชิงลึกเกี่ยวกับการโจมตีเหล่านี้ ความก้าวหน้าที่รวดเร็วอย่างเห็นได้ชัดของห้องปฏิบัติการเหล่านี้อาจถูกตีความผิดพลาดว่าเป็นหลักฐานว่าการควบคุมการส่งออกไม่มีประสิทธิภาพ ในความเป็นจริงแล้ว ความก้าวหน้าเหล่านั้นขึ้นอยู่กับความสามารถที่ถูกสกัดมาจากโมเดลของอเมริกา และการดำเนินการสกัดในวงกว้างต้องใช้ชิปขั้นสูงที่การควบคุมการส่งออกถูกออกแบบมาเพื่อจำกัด
มาตรการตอบโต้ของ Anthropic
Anthropic กำลังใช้มาตรการป้องกันหลายอย่างเพื่อต่อต้านการโจมตีแบบกลั่นกรอง:
- ตัวแยกประเภทการตรวจจับ: ระบบระบุลายนิ้วมือพฤติกรรมที่ระบุรูปแบบการกลั่นกรองในการรับส่งข้อมูล API รวมถึงการดึงข้อมูล chain-of-thought ที่ใช้ในการสร้างข้อมูลการฝึกการให้เหตุผล
- การแบ่งปันข้อมูลข่าวกรอง: ตัวบ่งชี้ทางเทคนิคที่แบ่งปันกับห้องปฏิบัติการ AI อื่นๆ, ผู้ให้บริการคลาวด์ และหน่วยงานที่เกี่ยวข้อง เพื่อให้เห็นภาพรวมที่ครอบคลุมของสถานการณ์การกลั่นกรอง
- การควบคุมการเข้าถึง: การยืนยันที่เข้มงวดขึ้นสำหรับบัญชีเพื่อการศึกษา, โปรแกรมวิจัยด้านความปลอดภัย และองค์กรสตาร์ทอัพ — ซึ่งเป็นช่องทางที่ถูกใช้ประโยชน์บ่อยที่สุด
- มาตรการป้องกันระดับโมเดล: มาตรการตอบโต้ระดับผลิตภัณฑ์, API และโมเดลที่ออกแบบมาเพื่อลดประสิทธิภาพของเอาต์พุตสำหรับการกลั่นกรองที่ผิดกฎหมายโดยไม่ลดทอนการใช้งานที่ถูกต้องตามกฎหมาย
Anthropic ยังได้เชื่อมโยโยงข้อมูลเหล่านี้เข้ากับการสนับสนุนก่อนหน้านี้สำหรับความสามารถ ความปลอดภัยของโค้ด Claude สำหรับผู้ป้องกัน ซึ่งเป็นส่วนหนึ่งของกลยุทธ์ที่กว้างขึ้นเพื่อให้มั่นใจว่าความสามารถ AI แนวหน้ายังคงได้รับการปกป้อง
จำเป็นต้องมีการตอบสนองจากอุตสาหกรรมในวงกว้าง
Anthropic เน้นย้ำว่าไม่มีบริษัทใดบริษัทหนึ่งสามารถแก้ไขปัญหาการโจมตีแบบกลั่นกรองได้เพียงลำพัง แคมเปญเหล่านี้ใช้ประโยชน์จากบริการพร็อกซีเชิงพาณิชย์, แพลตฟอร์มคลาวด์ของบุคคลที่สาม และช่องโหว่ในการยืนยันบัญชีที่ครอบคลุมระบบนิเวศ AI ทั้งหมด
ความเข้มข้นและความซับซ้อนที่เพิ่มขึ้นของแคมเปญเหล่านี้ทำให้มีเวลาดำเนินการน้อยลง Anthropic สังเกตว่าผู้กลั่นกรองปรับตัวได้อย่างรวดเร็ว: เมื่อโมเดลใหม่ถูกปล่อยออกมา ความพยายามในการสกัดจะเปลี่ยนไปภายในไม่กี่ชั่วโมง เมื่อบัญชีถูกแบน เครือข่ายพร็อกซีจะเข้ามาแทนที่ทันทีผ่านสถาปัตยกรรมไฮดราคลัสเตอร์ที่ไม่มีจุดบกพร่องเดียว
การแก้ไขภัยคุกคามนี้ต้องอาศัยการประสานงานระหว่างบริษัท AI, ผู้ให้บริการคลาวด์ และผู้กำหนดนโยบาย Anthropic เผยแพร่ผลการวิจัยเพื่อให้หลักฐานดังกล่าวเป็นที่เข้าถึงได้สำหรับทุกคนที่มีส่วนได้ส่วนเสียในการปกป้องความสามารถ AI แนวหน้าจากการสกัดที่ผิดกฎหมาย บริษัทเรียกร้องให้มีมาตรฐานการยืนยันบัญชีทั่วทั้งอุตสาหกรรม, กรอบการแบ่งปันข้อมูลภัยคุกคาม และการสนับสนุนนโยบายเพื่อบังคับใช้กฎหมายต่อการกลั่นกรองที่ผิดกฎหมายในวงกว้าง
คำถามที่พบบ่อย
การโจมตีแบบกลั่นกรอง AI คืออะไร?
บริษัทใดบ้างที่กลั่นกรองความสามารถของ Claude?
ทำไมการโจมตีแบบกลั่นกรองจึงเป็นความเสี่ยงต่อความมั่นคงของชาติ?
DeepSeek, Moonshot และ MiniMax เข้าถึง Claude ได้อย่างไร?
Anthropic กำลังตอบสนองต่อการโจมตีแบบกลั่นกรองอย่างไร?
DeepSeek สกัดอะไรจาก Claude โดยเฉพาะ?
อัปเดตข่าวสาร
รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ
