Code Velocity
ความปลอดภัยของ AI

Anthropic เปิดเผยการโจมตีแบบกลั่นกรองโดย DeepSeek และ MiniMax

·4 นาทีอ่าน·Anthropic, DeepSeek, Moonshot AI, MiniMax·แหล่งที่มา
แชร์
แผนภาพแสดงขั้นตอนการโจมตีแบบกลั่นกรองจากโมเดล AI แนวหน้า ไปยังสำเนาที่ผิดกฎหมายผ่านเครือข่ายบัญชีฉ้อโกง

Anthropic เปิดเผยการโจมตีแบบกลั่นกรองระดับอุตสาหกรรม

Anthropic ได้เผยแพร่หลักฐานที่แสดงว่าห้องปฏิบัติการ AI สามแห่ง ได้แก่ DeepSeek, Moonshot AI และ MiniMax ได้ดำเนินการโจมตีแบบประสานงานเพื่อสกัดความสามารถของ Claude ผ่านการกลั่นกรองที่ผิดกฎหมาย แคมเปญเหล่านี้สร้างการแลกเปลี่ยนข้อมูลกับ Claude มากกว่า 16 ล้านครั้ง ผ่านบัญชีฉ้อโกงประมาณ 24,000 บัญชี ซึ่งเป็นการละเมิดข้อกำหนดในการให้บริการและข้อจำกัดการเข้าถึงในภูมิภาคของ Anthropic

การกลั่นกรองเป็นเทคนิคที่ถูกต้องตามกฎหมาย ซึ่งโมเดลขนาดเล็กจะถูกฝึกโดยใช้เอาต์พุตจากโมเดลที่แข็งแกร่งกว่า ห้องปฏิบัติการแนวหน้ามักจะกลั่นกรองโมเดลของตนเองเพื่อสร้างเวอร์ชันที่ประหยัดต้นทุนมากขึ้น แต่เมื่อคู่แข่งใช้การกลั่นกรองโดยไม่ได้รับอนุญาต พวกเขาจะได้รับความสามารถอันทรงพลังด้วยต้นทุนและเวลาเพียงเสี้ยวเดียวของที่จำเป็นสำหรับการพัฒนาอย่างอิสระ

การโจมตีมุ่งเป้าไปที่คุณสมบัติที่แตกต่างกันมากที่สุดของ Claude: การให้เหตุผลแบบตัวแทน, การใช้เครื่องมือ และการเขียนโค้ด — ซึ่งเป็นความสามารถเดียวกันที่ขับเคลื่อน Claude Opus 4.6 และ Claude Sonnet 4.6

ขนาดและเป้าหมายของแต่ละแคมเปญ

ห้องปฏิบัติการการแลกเปลี่ยนข้อมูลเป้าหมายหลัก
DeepSeek150,000+การให้เหตุผล, การให้คะแนนโมเดลรางวัล, การเลี่ยงผ่านการเซ็นเซอร์
Moonshot AI3.4 ล้าน+การให้เหตุผลแบบตัวแทน, การใช้เครื่องมือ, คอมพิวเตอร์วิทัศน์
MiniMax13 ล้าน+การเขียนโค้ดแบบตัวแทน, การจัดการเครื่องมือ

DeepSeek ใช้เทคนิคที่น่าสังเกต: พรอมต์ที่ขอให้ Claude อธิบายการให้เหตุผลภายในของมันทีละขั้นตอน ซึ่งเป็นการสร้างข้อมูลการฝึกแบบ chain-of-thought ในวงกว้างได้อย่างมีประสิทธิภาพ พวกเขายังใช้ Claude เพื่อสร้างทางเลือกที่ปลอดภัยจากการเซ็นเซอร์สำหรับคำถามที่ละเอียดอ่อนทางการเมือง — ซึ่งน่าจะเป็นการฝึกโมเดลของตนเองเพื่อเบี่ยงเบนการสนทนาออกจากหัวข้อที่ถูกเซ็นเซอร์ Anthropic สืบรอยบัญชีเหล่านี้ไปยังนักวิจัยเฉพาะในห้องปฏิบัติการดังกล่าว

Moonshot AI (โมเดล Kimi) ใช้บัญชีฉ้อโกงหลายร้อยบัญชีผ่านช่องทางการเข้าถึงที่หลากหลาย ในระยะต่อมา Moonshot ได้เปลี่ยนไปใช้แนวทางที่ตรงเป้าหมายมากขึ้น โดยพยายามสกัดและสร้างร่องรอยการให้เหตุผลของ Claude ขึ้นมาใหม่

MiniMax ดำเนินการโจมตีที่ใหญ่ที่สุดด้วยการแลกเปลี่ยนข้อมูลมากกว่า 13 ล้านครั้ง Anthropic ตรวจพบแคมเปญนี้ในขณะที่ยังคงดำเนินอยู่ — ก่อนที่ MiniMax จะเปิดตัวโมเดลที่กำลังฝึกอบรม เมื่อ Anthropic เปิดตัวโมเดลใหม่ในระหว่างแคมเปญที่กำลังดำเนินอยู่ MiniMax ได้ปรับเปลี่ยนภายใน 24 ชั่วโมง โดยเปลี่ยนเส้นทางการรับส่งข้อมูลเกือบครึ่งหนึ่งเพื่อดึงเอาความสามารถล่าสุดไป

ผู้กลั่นกรองเลี่ยงข้อจำกัดการเข้าถึงได้อย่างไร

Anthropic ไม่ได้ให้บริการการเข้าถึง Claude ในเชิงพาณิชย์ในประเทศจีนด้วยเหตุผลด้านความมั่นคงของชาติ ห้องปฏิบัติการเหล่านี้เลี่ยงข้อจำกัดนี้โดยใช้บริการพร็อกซีเชิงพาณิชย์ที่ขายต่อการเข้าถึงโมเดลแนวหน้าในวงกว้าง

บริการเหล่านี้ใช้สิ่งที่ Anthropic เรียกว่าสถาปัตยกรรม 'ไฮดราคลัสเตอร์': เครือข่ายบัญชีฉ้อโกงที่แผ่ขยายออกไป ซึ่งกระจายปริมาณการใช้งานทั่วทั้ง API และแพลตฟอร์มคลาวด์ของบุคคลที่สาม เมื่อบัญชีหนึ่งถูกแบน บัญชีใหม่จะเข้ามาแทนที่ เครือข่ายพร็อกซีหนึ่งแห่งจัดการบัญชีฉ้อโกงมากกว่า 20,000 บัญชีพร้อมกัน โดยผสมผสานปริมาณการใช้งานการกลั่นกรองเข้ากับการร้องขอของลูกค้าที่ไม่เกี่ยวข้องเพื่อทำให้การตรวจจับทำได้ยากขึ้น

สิ่งที่ทำให้การกลั่นกรองแตกต่างจากการใช้งานปกติคือรูปแบบ พรอมต์เดียวอาจดูไม่เป็นอันตราย แต่เมื่อมีรูปแบบที่แตกต่างกันเข้ามาหลายหมื่นครั้งจากบัญชีที่ประสานงานกันหลายร้อยบัญชี โดยทั้งหมดมุ่งเป้าไปที่ความสามารถแคบๆ เดียวกัน รูปแบบดังกล่าวก็จะชัดเจน

นัยยะต่อความมั่นคงของชาติ

โมเดลที่ถูกกลั่นกรองอย่างผิดกฎหมายขาดมาตรการความปลอดภัยที่บริษัทในสหรัฐฯ สร้างขึ้นในระบบแนวหน้า มาตรการป้องกันเหล่านี้ช่วยป้องกันไม่ให้ AI ถูกนำไปใช้ในการพัฒนาอาวุธชีวภาพ, ดำเนินการปฏิบัติการไซเบอร์เชิงรุก หรือเปิดใช้งานการเฝ้าระวังจำนวนมาก

โมเดลที่สร้างขึ้นผ่านการกลั่นกรองที่ผิดกฎหมายไม่น่าจะยังคงมีการป้องกันเหล่านั้นอยู่ ห้องปฏิบัติการต่างประเทศสามารถป้อนความสามารถที่ไม่มีการป้องกันเข้าสู่ระบบทางทหาร, หน่วยข่าวกรอง และระบบเฝ้าระวังได้ หากโมเดลที่ถูกกลั่นกรองถูกเผยแพร่แบบโอเพนซอร์ส ความสามารถที่เป็นอันตรายจะแพร่กระจายอย่างอิสระเกินการควบคุมของรัฐบาลใดๆ

การโจมตีแบบกลั่นกรองยังบ่อนทำลายการควบคุมการส่งออกของสหรัฐฯ หากไม่มีข้อมูลเชิงลึกเกี่ยวกับการโจมตีเหล่านี้ ความก้าวหน้าที่รวดเร็วอย่างเห็นได้ชัดของห้องปฏิบัติการเหล่านี้อาจถูกตีความผิดพลาดว่าเป็นหลักฐานว่าการควบคุมการส่งออกไม่มีประสิทธิภาพ ในความเป็นจริงแล้ว ความก้าวหน้าเหล่านั้นขึ้นอยู่กับความสามารถที่ถูกสกัดมาจากโมเดลของอเมริกา และการดำเนินการสกัดในวงกว้างต้องใช้ชิปขั้นสูงที่การควบคุมการส่งออกถูกออกแบบมาเพื่อจำกัด

มาตรการตอบโต้ของ Anthropic

Anthropic กำลังใช้มาตรการป้องกันหลายอย่างเพื่อต่อต้านการโจมตีแบบกลั่นกรอง:

  • ตัวแยกประเภทการตรวจจับ: ระบบระบุลายนิ้วมือพฤติกรรมที่ระบุรูปแบบการกลั่นกรองในการรับส่งข้อมูล API รวมถึงการดึงข้อมูล chain-of-thought ที่ใช้ในการสร้างข้อมูลการฝึกการให้เหตุผล
  • การแบ่งปันข้อมูลข่าวกรอง: ตัวบ่งชี้ทางเทคนิคที่แบ่งปันกับห้องปฏิบัติการ AI อื่นๆ, ผู้ให้บริการคลาวด์ และหน่วยงานที่เกี่ยวข้อง เพื่อให้เห็นภาพรวมที่ครอบคลุมของสถานการณ์การกลั่นกรอง
  • การควบคุมการเข้าถึง: การยืนยันที่เข้มงวดขึ้นสำหรับบัญชีเพื่อการศึกษา, โปรแกรมวิจัยด้านความปลอดภัย และองค์กรสตาร์ทอัพ — ซึ่งเป็นช่องทางที่ถูกใช้ประโยชน์บ่อยที่สุด
  • มาตรการป้องกันระดับโมเดล: มาตรการตอบโต้ระดับผลิตภัณฑ์, API และโมเดลที่ออกแบบมาเพื่อลดประสิทธิภาพของเอาต์พุตสำหรับการกลั่นกรองที่ผิดกฎหมายโดยไม่ลดทอนการใช้งานที่ถูกต้องตามกฎหมาย

Anthropic ยังได้เชื่อมโยโยงข้อมูลเหล่านี้เข้ากับการสนับสนุนก่อนหน้านี้สำหรับความสามารถ ความปลอดภัยของโค้ด Claude สำหรับผู้ป้องกัน ซึ่งเป็นส่วนหนึ่งของกลยุทธ์ที่กว้างขึ้นเพื่อให้มั่นใจว่าความสามารถ AI แนวหน้ายังคงได้รับการปกป้อง

จำเป็นต้องมีการตอบสนองจากอุตสาหกรรมในวงกว้าง

Anthropic เน้นย้ำว่าไม่มีบริษัทใดบริษัทหนึ่งสามารถแก้ไขปัญหาการโจมตีแบบกลั่นกรองได้เพียงลำพัง แคมเปญเหล่านี้ใช้ประโยชน์จากบริการพร็อกซีเชิงพาณิชย์, แพลตฟอร์มคลาวด์ของบุคคลที่สาม และช่องโหว่ในการยืนยันบัญชีที่ครอบคลุมระบบนิเวศ AI ทั้งหมด

ความเข้มข้นและความซับซ้อนที่เพิ่มขึ้นของแคมเปญเหล่านี้ทำให้มีเวลาดำเนินการน้อยลง Anthropic สังเกตว่าผู้กลั่นกรองปรับตัวได้อย่างรวดเร็ว: เมื่อโมเดลใหม่ถูกปล่อยออกมา ความพยายามในการสกัดจะเปลี่ยนไปภายในไม่กี่ชั่วโมง เมื่อบัญชีถูกแบน เครือข่ายพร็อกซีจะเข้ามาแทนที่ทันทีผ่านสถาปัตยกรรมไฮดราคลัสเตอร์ที่ไม่มีจุดบกพร่องเดียว

การแก้ไขภัยคุกคามนี้ต้องอาศัยการประสานงานระหว่างบริษัท AI, ผู้ให้บริการคลาวด์ และผู้กำหนดนโยบาย Anthropic เผยแพร่ผลการวิจัยเพื่อให้หลักฐานดังกล่าวเป็นที่เข้าถึงได้สำหรับทุกคนที่มีส่วนได้ส่วนเสียในการปกป้องความสามารถ AI แนวหน้าจากการสกัดที่ผิดกฎหมาย บริษัทเรียกร้องให้มีมาตรฐานการยืนยันบัญชีทั่วทั้งอุตสาหกรรม, กรอบการแบ่งปันข้อมูลภัยคุกคาม และการสนับสนุนนโยบายเพื่อบังคับใช้กฎหมายต่อการกลั่นกรองที่ผิดกฎหมายในวงกว้าง

คำถามที่พบบ่อย

การโจมตีแบบกลั่นกรอง AI คืออะไร?
การโจมตีแบบกลั่นกรอง AI คือการฝึกโมเดลที่มีความสามารถน้อยกว่าโดยใช้เอาต์พุตจากโมเดลที่แข็งแกร่งกว่าโดยไม่ได้รับอนุญาต คู่แข่งจะสร้างพรอมต์จำนวนมากที่ถูกสร้างขึ้นอย่างระมัดระวังเพื่อดึงความสามารถเฉพาะจากโมเดลแนวหน้า จากนั้นใช้การตอบสนองเหล่านั้นเพื่อฝึกระบบของตนเอง Anthropic ระบุการแลกเปลี่ยนข้อมูลที่ผิดกฎหมายกว่า 16 ล้านครั้ง จากบัญชีฉ้อโกงประมาณ 24,000 บัญชี ที่ DeepSeek, Moonshot และ MiniMax ใช้เพื่อสกัดความสามารถของ Claude
บริษัทใดบ้างที่กลั่นกรองความสามารถของ Claude?
Anthropic ระบุห้องปฏิบัติการ AI ของจีนสามแห่งที่ดำเนินการโจมตีแบบกลั่นกรองในระดับอุตสาหกรรม ได้แก่ DeepSeek (มากกว่า 150,000 การแลกเปลี่ยนข้อมูลโดยมุ่งเป้าไปที่การให้เหตุผลและการเลี่ยงผ่านการเซ็นเซอร์), Moonshot AI (มากกว่า 3.4 ล้านการแลกเปลี่ยนข้อมูลโดยมุ่งเป้าไปที่การให้เหตุผลแบบตัวแทนและการใช้เครื่องมือ) และ MiniMax (มากกว่า 13 ล้านการแลกเปลี่ยนข้อมูลโดยมุ่งเป้าไปที่การเขียนโค้ดแบบตัวแทนและการจัดการเครื่องมือ)
ทำไมการโจมตีแบบกลั่นกรองจึงเป็นความเสี่ยงต่อความมั่นคงของชาติ?
โมเดลที่ถูกกลั่นกรองอย่างผิดกฎหมายขาดมาตรการความปลอดภัยที่บริษัทในสหรัฐฯ อย่าง Anthropic สร้างขึ้นในระบบของตน โมเดลที่ไม่มีการป้องกันเหล่านี้สามารถนำไปใช้ในการปฏิบัติการไซเบอร์เชิงรุก, แคมเปญบิดเบือนข้อมูล, การเฝ้าระวังจำนวนมาก และแม้แต่การสนับสนุนการพัฒนาอาวุธชีวภาพ หากโมเดลที่ถูกกลั่นกรองถูกเผยแพร่แบบโอเพนซอร์ส ความสามารถที่เป็นอันตรายจะแพร่กระจายออกไปเกินการควบคุมของรัฐบาลใดๆ ซึ่งเป็นการบ่อนทำลายการควบคุมการส่งออกที่ออกแบบมาเพื่อรักษาสิทธิประโยชน์ด้าน AI ของอเมริกา
DeepSeek, Moonshot และ MiniMax เข้าถึง Claude ได้อย่างไร?
ห้องปฏิบัติการเหล่านี้เลี่ยงข้อจำกัดการเข้าถึงในภูมิภาคของ Anthropic โดยใช้บริการพร็อกซีเชิงพาณิชย์ที่ขายต่อการเข้าถึง Claude API ในวงกว้าง บริการเหล่านี้ใช้สถาปัตยกรรม 'ไฮดราคลัสเตอร์' ที่มีเครือข่ายบัญชีฉ้อโกงจำนวนมากกระจายอยู่ทั่ว API ของ Anthropic และแพลตฟอร์มคลาวด์ของบุคคลที่สาม เครือข่ายพร็อกซีหนึ่งแห่งจัดการบัญชีฉ้อโกงมากกว่า 20,000 บัญชีพร้อมกัน โดยผสมผสานปริมาณการใช้งานกลั่นกรองเข้ากับการร้องขอที่ถูกต้องตามกฎหมายเพื่อหลีกเลี่ยงการตรวจจับ
Anthropic กำลังตอบสนองต่อการโจมตีแบบกลั่นกรองอย่างไร?
Anthropic กำลังใช้มาตรการตอบโต้หลายอย่าง: ตัวแยกประเภทการตรวจสอบพฤติกรรมเพื่อตรวจจับรูปแบบการกลั่นกรองในการรับส่งข้อมูล API, การแบ่งปันข้อมูลข่าวกรองกับห้องปฏิบัติการ AI และผู้ให้บริการคลาวด์อื่นๆ, การยืนยันบัญชีที่เข้มงวดขึ้น และมาตรการป้องกันในระดับโมเดลที่ลดประสิทธิภาพของเอาต์พุตสำหรับการกลั่นกรองที่ผิดกฎหมายโดยไม่ลดทอนการบริการสำหรับผู้ใช้ที่ถูกต้องตามกฎหมาย Anthropic ยังเรียกร้องให้มีการตอบสนองร่วมกันจากอุตสาหกรรมและนโยบาย
DeepSeek สกัดอะไรจาก Claude โดยเฉพาะ?
DeepSeek มุ่งเป้าไปที่ความสามารถในการให้เหตุผลของ Claude, งานการให้คะแนนตามเกณฑ์ (ทำให้ Claude ทำหน้าที่เป็นโมเดลรางวัลสำหรับการเรียนรู้แบบเสริมกำลัง) และทางเลือกที่ปลอดภัยจากการเซ็นเซอร์สำหรับคำถามที่ละเอียดอ่อนทางการเมือง พวกเขาใช้เทคนิคที่ขอให้ Claude อธิบายการให้เหตุผลภายในของมันทีละขั้นตอน สร้างข้อมูลการฝึกแบบ chain-of-thought ในวงกว้าง Anthropic สืบรอยบัญชีเหล่านี้ไปยังนักวิจัยเฉพาะที่ DeepSeek

อัปเดตข่าวสาร

รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ

แชร์