เอไอเอเจนต์: ต้านทานการโจมตีแบบ Prompt Injection ด้วยวิศวกรรมทางสังคม

title: "เอไอเอเจนต์: ต้านทานการโจมตีแบบ Prompt Injection ด้วยวิศวกรรมทางสังคม" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "th" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "ความปลอดภัยของ AI" keywords:

เอไอเอเจนต์
prompt injection
ความปลอดภัยของ AI
วิศวกรรมทางสังคม
ความปลอดภัยของ LLM
ChatGPT
ความเป็นส่วนตัวของข้อมูล
การโจมตีที่เป็นอันตราย
เอไอแบบตัวแทน
OpenAI
วิศวกรรมความปลอดภัย
Safe Url meta_description: "เรียนรู้ว่า OpenAI ออกแบบเอไอเอเจนต์อย่างไรเพื่อต้านทานการโจมตีแบบ prompt injection ขั้นสูง โดยใช้กลยุทธ์การป้องกันด้วยวิศวกรรมทางสังคม เพื่อความปลอดภัยของ AI และความเป็นส่วนตัวของข้อมูลที่แข็งแกร่ง" image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "เอไอเอเจนต์ของ OpenAI ต้านทานการโจมตีแบบ prompt injection และวิศวกรรมทางสังคม" quality_score: 94 content_score: 93 seo_score: 95 companies:
OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
question: "Prompt injection ในบริบทของเอไอเอเจนต์คืออะไร?" answer: "Prompt injection หมายถึงการโจมตีประเภทหนึ่งที่คำสั่งที่เป็นอันตรายถูกฝังไว้อย่างแนบเนียนในเนื้อหาภายนอกที่เอไอเอเจนต์ประมวลผล เป้าหมายคือการควบคุมเอเจนต์ให้ดำเนินการหรือเปิดเผยข้อมูลที่ผู้ใช้ไม่ได้ตั้งใจหรือไม่ได้รับอนุญาต การโจมตีเหล่านี้ใช้ประโยชน์จากความสามารถของ AI ในการตีความและปฏิบัติตามคำสั่ง แม้ว่าคำสั่งเหล่านั้นจะมาจากแหล่งที่ไม่น่าเชื่อถือ ซึ่งเป็นการ 'จี้' พฤติกรรมของเอเจนต์เพื่อวัตถุประสงค์ที่ไม่พึงประสงค์ รูปแบบแรกๆ อาจเป็นคำสั่งโดยตรง แต่รูปแบบขั้นสูงใช้ประโยชน์จากวิศวกรรมทางสังคมเพื่อให้ตรวจจับได้ยากขึ้นและน่าเชื่อถือมากขึ้น ซึ่งต้องใช้มาตรการรับมือที่ซับซ้อนเพื่อรักษาความสมบูรณ์ของระบบและความไว้วางใจของผู้ใช้"
question: "Prompt injection มีวิวัฒนาการอย่างไร และทำไมสิ่งนี้จึงมีความสำคัญ?" answer: "Prompt injection ได้พัฒนาจากการใช้คำสั่งเชิงลบที่ตรงไปตรงมา (เช่น คำสั่งโดยตรงในหน้าเว็บ) ไปสู่กลยุทธ์วิศวกรรมทางสังคมที่ซับซ้อน การโจมตีในระยะแรกมักถูกตรวจจับได้ด้วยการกรองข้อมูลพื้นฐาน อย่างไรก็ตาม เมื่อโมเดล AI ฉลาดขึ้น ผู้โจมตีก็เริ่มสร้าง prompt ที่ผสมผสานเจตนาร้ายเข้ากับบริบทที่ดูเหมือนถูกต้องตามกฎหมาย เลียนแบบวิศวกรรมทางสังคมของมนุษย์ การเปลี่ยนแปลงนี้มีความสำคัญเนื่องจากหมายความว่าการป้องกันไม่สามารถอาศัยเพียงแค่การระบุสตริงที่เป็นอันตรายได้อีกต่อไป แต่ต้องจัดการกับความท้าทายที่กว้างขึ้นในการต้านทานเนื้อหาที่ทำให้เข้าใจผิดหรือบิดเบือนในบริบท ซึ่งต้องใช้วิธีการด้านความปลอดภัยที่เป็นองค์รวมและเป็นระบบมากขึ้น แทนที่จะเป็นการกรองข้อมูลเข้าแบบง่ายๆ"
question: "OpenAI ป้องกันการโจมตีแบบ prompt injection จากวิศวกรรมทางสังคมได้อย่างไร?" answer: "OpenAI ใช้กลยุทธ์การป้องกันแบบหลายชั้น โดยเปรียบเทียบจากการจัดการความเสี่ยงด้านวิศวกรรมทางสังคมของมนุษย์ ซึ่งรวมถึงมุมมอง 'ระบบสามผู้กระทำ' (ผู้ใช้, เอเจนต์, โลกภายนอก) โดยที่เอเจนต์จะถูกจำกัดความสามารถเพื่อควบคุมผลกระทบที่อาจเกิดขึ้น เทคนิคสำคัญได้แก่ 'การวิเคราะห์ source-sink' เพื่อตรวจจับการไหลของข้อมูลที่เป็นอันตราย กลไก Safe Url ที่แจ้งให้ผู้ใช้ยืนยันหรือบล็อกการส่งข้อมูลที่ละเอียดอ่อนไปยังบุคคลที่สาม และการใช้ sandboxing สำหรับเครื่องมือแบบเอเจนต์ เช่น ChatGPT Canvas และ Apps เป้าหมายโดยรวมคือเพื่อให้แน่ใจว่าการดำเนินการที่สำคัญหรือการส่งข้อมูลจะไม่เกิดขึ้นอย่างเงียบๆ โดยให้ความสำคัญกับความปลอดภัยและความยินยอมของผู้ใช้เสมอ เพื่อรักษาระบบความปลอดภัยของ AI ที่แข็งแกร่ง"
question: "Safe Url คืออะไร และปกป้องเอไอเอเจนต์และผู้ใช้ได้อย่างไร?" answer: "Safe Url เป็นกลยุทธ์การบรรเทาผลกระทบที่สำคัญซึ่งพัฒนาโดย OpenAI เพื่อปกป้องเอไอเอเจนต์และผู้ใช้จากการส่งข้อมูลออกโดยไม่ได้รับอนุญาต โดยจะตรวจจับเมื่อข้อมูลที่เอไอเอเจนต์ได้เรียนรู้ระหว่างการสนทนาหรือการโต้ตอบอาจถูกส่งไปยัง URL ของบุคคลที่สามภายนอกที่อาจเป็นอันตราย เมื่อตรวจพบการส่งข้อมูลดังกล่าว Safe Url จะเข้าแทรกแซงโดยการแสดงข้อมูลที่ละเอียดอ่อนให้ผู้ใช้ยืนยันอย่างชัดเจนก่อนส่ง หรือบล็อกการส่งข้อมูลทั้งหมดและสั่งให้เอเจนต์หาวิธีอื่นที่ปลอดภัยในการตอบสนองคำขอของผู้ใช้ กลไกนี้ช่วยให้มั่นใจว่าข้อมูลที่ละเอียดอ่อนยังคงอยู่ภายใต้การควบคุมของผู้ใช้ แม้ว่าเอเจนต์จะถูกชักจูงชั่วคราวด้วย prompt injection ที่เป็นวิศวกรรมทางสังคมก็ตาม"
question: "ทำไมความยินยอมของผู้ใช้จึงมีความสำคัญอย่างยิ่งสำหรับเอไอเอเจนต์ โดยเฉพาะอย่างยิ่งเมื่อมีความสามารถใหม่ๆ?" answer: "ความยินยอมของผู้ใช้มีความสำคัญสูงสุดสำหรับเอไอเอเจนต์ โดยเฉพาะอย่างยิ่งเมื่อความสามารถของพวกมันขยายไปถึงการเรียกดูข้อมูล, การโต้ตอบกับเครื่องมือภายนอก และการส่งข้อมูล ด้วยกลยุทธ์ prompt injection และวิศวกรรมทางสังคมขั้นสูง เอเจนต์อาจถูกหลอกให้ดำเนินการที่ประนีประนอมความเป็นส่วนตัวหรือความปลอดภัย การกำหนดให้ผู้ใช้ให้ความยินยอมอย่างชัดเจนสำหรับการกระทำที่อาจเป็นอันตราย เช่น การส่งข้อมูลที่ละเอียดอ่อน, การไปยังเว็บไซต์ภายนอก หรือการใช้แอปพลิเคชันภายนอก ช่วยให้ผู้ใช้ยังคงควบคุมได้อย่างสมบูรณ์ สิ่งนี้ช่วยป้องกันการประนีประนอมที่เงียบเชียบและให้อำนาจผู้ใช้ในการยืนยันหรือปฏิเสธการกระทำ ซึ่งทำหน้าที่เป็นชั้นป้องกันสุดท้ายที่สำคัญต่อการบิดเบือนและพฤติกรรมที่ไม่ได้รับอนุญาต โดยสอดคล้องกับหลักการความเป็นส่วนตัวของข้อมูลและเอกราชของผู้ใช้"
question: "'การวิเคราะห์ source-sink' ในบริบทของความปลอดภัยของ AI คืออะไร?" answer: "การวิเคราะห์ source-sink เป็นแนวทางการวิศวกรรมความปลอดภัยที่ OpenAI ใช้เพื่อระบุและลดความเสี่ยงที่เกี่ยวข้องกับการไหลของข้อมูลภายในระบบ AI ในกรอบการทำงานนี้ 'source' หมายถึงกลไกอินพุตใดๆ ที่ผู้โจมตีสามารถใช้อิทธิพลต่อระบบได้ เช่น เนื้อหาภายนอกที่ไม่น่าเชื่อถือ หน้าเว็บ หรืออีเมลที่ประมวลผลโดยเอไอเอเจนต์ 'sink' หมายถึงความสามารถหรือการกระทำที่หากถูกนำไปใช้ในทางที่ผิด อาจกลายเป็นอันตรายในบริบทที่ไม่เหมาะสม เช่น การส่งข้อมูลไปยังบุคคลที่สาม การติดตามลิงก์ที่เป็นอันตราย หรือการเรียกใช้เครื่องมือ ด้วยการวิเคราะห์เส้นทางที่เป็นไปได้จาก source ไปยัง sink ทีมรักษาความปลอดภัยสามารถใช้การควบคุมเพื่อป้องกันการเคลื่อนย้ายข้อมูลที่ไม่ได้รับอนุญาตหรือการกระทำที่เป็นอันตราย แม้ว่าเอไอเอเจนต์จะถูกโจมตีด้วย prompt injection เพียงบางส่วนก็ตาม วิธีนี้เป็นพื้นฐานในการรับรองความสมบูรณ์ของข้อมูลและความปลอดภัยของระบบ"

เอไอเอเจนต์กำลังขยายขีดความสามารถอย่างรวดเร็ว ตั้งแต่การเรียกดูเว็บไปจนถึงการดึงข้อมูลที่ซับซ้อนและการดำเนินการในนามของผู้ใช้ แม้ว่าความก้าวหน้าเหล่านี้จะให้ประโยชน์และประสิทธิภาพที่ไม่เคยมีมาก่อน แต่ก็ก่อให้เกิดช่องโหว่ในการโจมตีแบบใหม่ที่ซับซ้อนไปพร้อมกัน หัวใจสำคัญของช่องโหว่เหล่านี้คือ prompt injection ซึ่งเป็นวิธีการที่คำสั่งที่เป็นอันตรายถูกฝังอยู่ในเนื้อหาภายนอก โดยมีเป้าหมายเพื่อควบคุมโมเดล AI ให้ดำเนินการที่ไม่พึงประสงค์ OpenAI เน้นย้ำถึงวิวัฒนาการที่สำคัญในการโจมตีเหล่านี้: พวกมันเลียนแบบกลวิธีวิศวกรรมทางสังคมมากขึ้นเรื่อยๆ ซึ่งจำเป็นต้องมีการเปลี่ยนแปลงพื้นฐานในกลยุทธ์การป้องกันจากการกรองข้อมูลเข้าแบบง่ายๆ ไปสู่การออกแบบระบบที่แข็งแกร่ง

ภัยคุกคามที่พัฒนา: Prompt Injection และวิศวกรรมทางสังคม

ในตอนแรก การโจมตีแบบ prompt injection มักจะตรงไปตรงมา เช่น การฝังคำสั่งเชิงปฏิปักษ์โดยตรงไว้ในบทความ Wikipedia ที่เอไอเอเจนต์อาจประมวลผล โมเดลในยุคแรกๆ ซึ่งขาดประสบการณ์ในการฝึกอบรมในสภาพแวดล้อมที่เป็นปฏิปักษ์เช่นนี้ มีแนวโน้มที่จะปฏิบัติตามคำสั่งที่ชัดเจนเหล่านี้โดยไม่มีข้อสงสัย อย่างไรก็ตาม เมื่อโมเดล AI เติบโตและซับซ้อนขึ้น ความเปราะบางต่อข้อเสนอแนะที่ชัดเจนดังกล่าวก็ลดลง สิ่งนี้กระตุ้นให้ผู้โจมตีพัฒนวิธีการที่ละเอียดอ่อนมากขึ้นซึ่งรวมเอาองค์ประกอบของวิศวกรรมทางสังคมเข้าไว้ด้วย

วิวัฒนาการนี้มีความสำคัญเนื่องจากมันก้าวข้ามการระบุสตริงที่เป็นอันตรายเพียงอย่างเดียว แต่กลับท้าทายระบบ AI ให้ต้านทานเนื้อหาที่ทำให้เข้าใจผิดหรือบิดเบือนในบริบทที่กว้างขึ้น คล้ายกับที่มนุษย์ต้องเผชิญกับวิศวกรรมทางสังคม ตัวอย่างเช่น การโจมตีแบบ prompt injection ในปี 2025 ที่รายงานต่อ OpenAI เกี่ยวข้องกับการสร้างอีเมลที่ดูเหมือนไม่มีพิษมีภัย แต่มีคำสั่งฝังอยู่ซึ่งออกแบบมาเพื่อหลอกให้ผู้ช่วย AI ดึงข้อมูลพนักงานที่ละเอียดอ่อนและส่งไปยัง "ระบบตรวจสอบการปฏิบัติตามข้อกำหนด" การโจมตีนี้แสดงให้เห็นอัตราความสำเร็จ 50% ในการทดสอบ ซึ่งแสดงให้เห็นถึงประสิทธิภาพของการผสมผสานคำขอที่ดูเหมือนถูกต้องตามกฎหมายเข้ากับคำสั่งที่เป็นอันตราย การโจมตีที่ซับซ้อนเช่นนี้มักจะเลี่ยงผ่านระบบ "ระบบป้องกัน AI" แบบดั้งเดิม ซึ่งโดยปกติจะพยายามจัดประเภทข้อมูลเข้าโดยอาศัยหลักการง่ายๆ เนื่องจาก การตรวจจับการบิดเบือนที่ละเอียดอ่อนเหล่านี้ทำได้ยากพอๆ กับการแยกแยะคำโกหกหรือข้อมูลที่ผิดโดยไม่มีบริบทสถานการณ์ที่สมบูรณ์

เอไอเอเจนต์ในฐานะคู่เทียบของมนุษย์: บทเรียนจากการป้องกันวิศวกรรมทางสังคม

เพื่อตอบโต้เทคนิค prompt injection ขั้นสูงเหล่านี้ OpenAI ได้นำแนวคิดที่เปลี่ยนไป โดยมองปัญหาผ่านมุมมองของวิศวกรรมทางสังคมของมนุษย์ แนวทางนี้ตระหนักดีว่าเป้าหมายไม่ใช่การระบุข้อมูลเข้าที่เป็นอันตรายทุกชิ้นได้อย่างสมบูรณ์แบบ แต่เป็นการออกแบบเอไอเอเจนต์และระบบเพื่อให้ผลกระทบของการบิดเบือนถูกจำกัดอย่างรุนแรง แม้ว่าการโจมตีจะประสบความสำเร็จบางส่วนก็ตาม แนวคิดนี้คล้ายกับการจัดการความเสี่ยงด้านวิศวกรรมทางสังคมสำหรับพนักงานในองค์กร

พิจารณาตัวแทนบริการลูกค้าที่เป็นมนุษย์ที่ได้รับมอบหมายให้สามารถออกเงินคืนหรือบัตรของขวัญได้ ในขณะที่ตัวแทนตั้งเป้าที่จะให้บริการลูกค้า พวกเขาก็ต้องเผชิญกับข้อมูลภายนอกอย่างต่อเนื่อง ซึ่งบางส่วนอาจเป็นข้อมูลที่บิดเบือนหรือแม้กระทั่งบีบบังคับ องค์กรต่างๆ บรรเทาความเสี่ยงนี้โดยการใช้กฎ ข้อจำกัด และระบบเชิงกำหนด ตัวอย่างเช่น ตัวแทนบริการลูกค้าอาจมีขีดจำกัดจำนวนเงินคืนที่สามารถออกได้ หรือมีขั้นตอนเฉพาะเพื่อแจ้งคำขอที่น่าสงสัย ในทำนองเดียวกัน เอไอเอเจนต์ ในขณะที่ดำเนินการในนามของผู้ใช้ จะต้องมีข้อจำกัดและการป้องกันในตัว ด้วยการคิดถึงเอไอเอเจนต์ภายใน "ระบบสามผู้กระทำ" นี้ (ผู้ใช้, เอเจนต์, โลกภายนอก) ซึ่งเอเจนต์จะต้องนำทางในข้อมูลภายนอกที่อาจเป็นศัตรู นักออกแบบสามารถสร้างความยืดหยุ่นได้ แนวทางนี้ยอมรับว่าการโจมตีบางอย่างจะหลุดรอดไปได้ในที่สุด แต่รับประกันว่าศักยภาพในการทำอันตรายจะลดลง หลักการนี้เป็นรากฐานของชุดมาตรการรับมือที่แข็งแกร่งซึ่ง OpenAI ใช้

หลักการป้องกัน	คำอธิบาย	การเปรียบเทียบกับระบบของมนุษย์	ประโยชน์
ข้อจำกัด	การจำกัดความสามารถและการกระทำของเอเจนต์ให้อยู่ในขอบเขตที่กำหนดไว้ล่วงหน้าและปลอดภัย เพื่อป้องกันการดำเนินการที่ไม่ได้รับอนุญาตหรือกว้างเกินไป	วงเงินการใช้จ่าย, ระดับการอนุญาต, การบังคับใช้นโยบายสำหรับพนักงาน	ลดความเสียหายที่อาจเกิดขึ้นได้แม้เอเจนต์จะถูกบุกรุกบางส่วน
ความโปร่งใส	การกำหนดให้ผู้ใช้ยืนยันอย่างชัดเจนสำหรับการกระทำที่อาจเป็นอันตรายหรือละเอียดอ่อนก่อนที่จะดำเนินการ	การอนุมัติของผู้จัดการสำหรับข้อยกเว้น, การตรวจสอบซ้ำการป้อนข้อมูลสำคัญ	ช่วยให้ผู้ใช้สามารถปฏิเสธหรือยืนยันการดำเนินการที่ละเอียดอ่อน ทำให้มั่นใจในการควบคุม
การทำ Sandboxing	การแยกการกระทำของเอเจนต์ โดยเฉพาะอย่างยิ่งเมื่อโต้ตอบกับเครื่องมือหรือแอปพลิเคชันภายนอก ภายในสภาพแวดล้อมที่ปลอดภัยและมีการตรวจสอบ	การเข้าถึงระบบที่ละเอียดอ่อนที่ถูกควบคุม, สภาพแวดล้อมเครือข่ายที่แบ่งส่วน	ป้องกันการกระทำที่เป็นอันตรายจากการส่งผลกระทบต่อระบบหลักหรือการขโมยข้อมูล
S&S ตามบริบท	การวิเคราะห์แหล่งที่มาของข้อมูลเข้าและปลายทางของข้อมูลออกสำหรับการไหลของข้อมูลที่น่าสงสัยหรือการส่งข้อมูลที่ไม่ได้รับอนุญาต การระบุรูปแบบที่บ่งชี้ถึงเจตนาร้าย	ระบบป้องกันการสูญหายของข้อมูล (DLP), โปรโตคอลการตรวจจับภัยคุกคามภายใน	ระบุและบล็อกความพยายามในการส่งข้อมูลออกโดยไม่ได้รับอนุญาต
การฝึกอบรมเชิงปฏิปักษ์	การฝึกอบรมโมเดล AI อย่างต่อเนื่องให้จดจำและต้านทานภาษาที่บิดเบือน, กลวิธีหลอกลวง และความพยายามทางวิศวกรรมทางสังคม	การฝึกอบรมการรับรู้ด้านความปลอดภัย, การจดจำฟิชชิ่งและการหลอกลวง	ปรับปรุงความสามารถโดยธรรมชาติของเอเจนต์ในการตรวจจับและแจ้งเตือนเนื้อหาที่เป็นอันตราย

การป้องกันหลายชั้นของ OpenAI ใน ChatGPT

OpenAI ผสานรวมโมเดลวิศวกรรมทางสังคมนี้เข้ากับเทคนิควิศวกรรมความปลอดภัยแบบดั้งเดิม โดยเฉพาะ "การวิเคราะห์ source-sink" ภายใน ChatGPT ในกรอบการทำงานนี้ ผู้โจมตีต้องการสององค์ประกอบหลัก: "source" เพื่อฉีดอิทธิพล (เช่น เนื้อหาภายนอกที่ไม่น่าเชื่อถือ) และ "sink" เพื่อใช้ประโยชน์จากความสามารถที่เป็นอันตราย (เช่น การส่งข้อมูล, การติดตามลิงก์ที่เป็นอันตราย หรือการโต้ตอบกับเครื่องมือที่ถูกบุกรุก) วัตถุประสงค์หลักของ OpenAI คือการรักษาความคาดหวังด้านความปลอดภัยขั้นพื้นฐาน: การดำเนินการที่เป็นอันตรายหรือการส่งข้อมูลที่ละเอียดอ่อนไม่ควรเกิดขึ้นอย่างเงียบๆ หรือปราศจากมาตรการป้องกันที่เหมาะสม

การโจมตี ChatGPT หลายครั้งพยายามหลอกให้ผู้ช่วยดึงข้อมูลการสนทนาที่เป็นความลับและส่งต่อไปยังบุคคลที่สามที่เป็นอันตราย ในขณะที่การฝึกอบรมด้านความปลอดภัยของ OpenAI มักจะทำให้เอเจนต์ปฏิเสธคำขอเหล่านั้น กลยุทธ์การบรรเทาผลกระทบที่สำคัญสำหรับกรณีที่เอเจนต์ ถูกชักจูง คือ Safe Url กลไกนี้ได้รับการออกแบบมาโดยเฉพาะเพื่อตรวจจับเมื่อข้อมูลที่เรียนรู้ระหว่างการสนทนาอาจถูกส่งไปยัง URL ของบุคคลที่สามภายนอก ในกรณีที่เกิดขึ้นไม่บ่อยนักนี้ ระบบจะแสดงข้อมูลให้ผู้ใช้ยืนยันอย่างชัดเจนก่อนส่ง หรือบล็อกการส่งข้อมูลทั้งหมด และสั่งให้เอเจนต์หาวิธีอื่นที่ปลอดภัยในการตอบสนองคำขอของผู้ใช้ สิ่งนี้ช่วยป้องกันการส่งข้อมูลออกแม้ว่าเอเจนต์จะถูกบุกรุกชั่วคราว สำหรับข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับการป้องกันการโต้ตอบกับลิงก์ที่ขับเคลื่อนด้วยเอเจนต์ ผู้ใช้สามารถอ้างอิงโพสต์บล็อกเฉพาะเรื่อง การรักษาข้อมูลของคุณให้ปลอดภัยเมื่อเอไอเอเจนต์คลิกลิงก์

บทบาทของ Safe Url และ Sandboxing ในเอไอแบบตัวแทน

กลไก Safe Url ซึ่งออกแบบมาเพื่อตรวจจับและควบคุมการส่งข้อมูลที่ละเอียดอ่อน ขยายขอบเขตการป้องกันออกไปนอกเหนือจากการคลิกลิงก์เพียงอย่างเดียว มาตรการป้องกันที่คล้ายกันนี้ถูกนำไปใช้กับการนำทางและบุ๊กมาร์กใน Atlas รวมถึงฟังก์ชันการค้นหาและการนำทางใน Deep Research แอปพลิเคชันเหล่านี้โดยธรรมชาติเกี่ยวข้องกับเอไอเอเจนต์ที่โต้ตอบกับแหล่งข้อมูลภายนอกจำนวนมาก ทำให้การควบคุมข้อมูลขาออกมีความสำคัญสูงสุด

นอกจากนี้ คุณสมบัติแบบตัวแทน เช่น ChatGPT Canvas และ ChatGPT Apps ยังใช้ปรัชญาความปลอดภัยที่คล้ายคลึงกัน เมื่อเอเจนต์สร้างและใช้แอปพลิเคชันเชิงฟังก์ชัน การดำเนินการเหล่านี้จะถูกจำกัดอยู่ภายในสภาพแวดล้อม sandbox ที่ปลอดภัย การทำ sandboxing นี้ช่วยให้สามารถตรวจจับการสื่อสารหรือการกระทำที่ไม่คาดคิดได้ สิ่งสำคัญคือ การโต้ตอบที่อาจละเอียดอ่อนหรือไม่ได้รับอนุญาตใดๆ จะกระตุ้นให้มีการร้องขอความยินยอมจากผู้ใช้อย่างชัดเจน ทำให้มั่นใจว่าผู้ใช้ยังคงควบคุมข้อมูลและพฤติกรรมของเอเจนต์ได้อย่างสมบูรณ์ แนวทางหลายชั้นนี้ ซึ่งรวมการวิเคราะห์ source-sink เข้ากับการรับรู้บริบท ความยินยอมของผู้ใช้ และการดำเนินการแบบ sandboxed จะสร้างการป้องกันที่แข็งแกร่งจากการโจมตีแบบ prompt injection และวิศวกรรมทางสังคมที่กำลังพัฒนา สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีที่ความสามารถของเอไอแบบตัวแทนเหล่านี้ถูกนำไปใช้งานอย่างปลอดภัย โปรดดูการสนทนาเกี่ยวกับการ การนำ AI แบบตัวแทนไปใช้งานจริง

การเตรียมพร้อมเอเจนต์อัตโนมัติสำหรับอนาคตเพื่อรับมือกับการโจมตีเชิงปฏิปักษ์

การรับประกันการโต้ตอบที่ปลอดภัยกับโลกภายนอกที่เป็นปฏิปักษ์ไม่ใช่เพียงคุณสมบัติที่พึงปรารถนา แต่เป็นรากฐานที่จำเป็นสำหรับการพัฒนาเอไอเอเจนต์อัตโนมัติอย่างสมบูรณ์ OpenAI แนะนำสำหรับนักพัฒนาที่รวมโมเดล AI เข้ากับแอปพลิเคชันของตน ให้พิจารณาว่าเอเจนต์ที่เป็นมนุษย์จะมีการควบคุมอะไรบ้างในสถานการณ์ที่มีความเสี่ยงสูงที่คล้ายกัน และนำข้อจำกัดที่คล้ายคลึงกันเหล่านั้นไปใช้ภายในระบบ AI

ในขณะที่ความปรารถนาคือการให้โมเดล AI ที่ฉลาดที่สุดสามารถต้านทานวิศวกรรมทางสังคมได้อย่างมีประสิทธิภาพมากกว่าเอเจนต์ที่เป็นมนุษย์ แต่สิ่งนี้ไม่ได้เป็นเป้าหมายที่เป็นไปได้หรือคุ้มค่าเสมอไปสำหรับทุกแอปพลิเคชันในทันที ดังนั้น การออกแบบระบบที่มีข้อจำกัดและการกำกับดูแลในตัวจึงยังคงมีความสำคัญ OpenAI มุ่งมั่นที่จะวิจัยผลกระทบของวิศวกรรมทางสังคมต่อโมเดล AI อย่างต่อเนื่อง และพัฒนาการป้องกันขั้นสูง การค้นพบเหล่านี้ถูกรวมเข้ากับทั้งสถาปัตยกรรมความปลอดภัยของแอปพลิเคชันและกระบวนการฝึกอบรมโมเดล AI อย่างต่อเนื่อง เพื่อให้มั่นใจถึงแนวทางเชิงรุกและปรับตัวได้ต่อความปลอดภัยของ AI ในสภาพแวดล้อมภัยคุกคามที่เปลี่ยนแปลงตลอดเวลา กลยุทธ์ที่มองไปข้างหน้ามุ่งเป้าไปที่การทำให้เอไอเอเจนต์มีประสิทธิภาพและน่าเชื่อถือโดยเนื้อแท้ ซึ่งสะท้อนความพยายามในการเพิ่มความปลอดภัยทั่วทั้งระบบนิเวศ AI รวมถึงความคิดริเริ่มเช่น การขัดขวางการใช้ AI ในทางที่ผิด

แหล่งที่มา

https://openai.com/index/designing-agents-to-resist-prompt-injection/

คำถามที่พบบ่อย

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

อัปเดตข่าวสาร

รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ

แชร์