title: "เอไอเอเจนต์: ต้านทานการโจมตีแบบ Prompt Injection ด้วยวิศวกรรมทางสังคม" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "th" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "ความปลอดภัยของ AI" keywords:
- เอไอเอเจนต์
- prompt injection
- ความปลอดภัยของ AI
- วิศวกรรมทางสังคม
- ความปลอดภัยของ LLM
- ChatGPT
- ความเป็นส่วนตัวของข้อมูล
- การโจมตีที่เป็นอันตราย
- เอไอแบบตัวแทน
- OpenAI
- วิศวกรรมความปลอดภัย
- Safe Url meta_description: "เรียนรู้ว่า OpenAI ออกแบบเอไอเอเจนต์อย่างไรเพื่อต้านทานการโจมตีแบบ prompt injection ขั้นสูง โดยใช้กลยุทธ์การป้องกันด้วยวิศวกรรมทางสังคม เพื่อความปลอดภัยของ AI และความเป็นส่วนตัวของข้อมูลที่แข็งแกร่ง" image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "เอไอเอเจนต์ของ OpenAI ต้านทานการโจมตีแบบ prompt injection และวิศวกรรมทางสังคม" quality_score: 94 content_score: 93 seo_score: 95 companies:
- OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
- question: "Prompt injection ในบริบทของเอไอเอเจนต์คืออะไร?" answer: "Prompt injection หมายถึงการโจมตีประเภทหนึ่งที่คำสั่งที่เป็นอันตรายถูกฝังไว้อย่างแนบเนียนในเนื้อหาภายนอกที่เอไอเอเจนต์ประมวลผล เป้าหมายคือการควบคุมเอเจนต์ให้ดำเนินการหรือเปิดเผยข้อมูลที่ผู้ใช้ไม่ได้ตั้งใจหรือไม่ได้รับอนุญาต การโจมตีเหล่านี้ใช้ประโยชน์จากความสามารถของ AI ในการตีความและปฏิบัติตามคำสั่ง แม้ว่าคำสั่งเหล่านั้นจะมาจากแหล่งที่ไม่น่าเชื่อถือ ซึ่งเป็นการ 'จี้' พฤติกรรมของเอเจนต์เพื่อวัตถุประสงค์ที่ไม่พึงประสงค์ รูปแบบแรกๆ อาจเป็นคำสั่งโดยตรง แต่รูปแบบขั้นสูงใช้ประโยชน์จากวิศวกรรมทางสังคมเพื่อให้ตรวจจับได้ยากขึ้นและน่าเชื่อถือมากขึ้น ซึ่งต้องใช้มาตรการรับมือที่ซับซ้อนเพื่อรักษาความสมบูรณ์ของระบบและความไว้วางใจของผู้ใช้"
- question: "Prompt injection มีวิวัฒนาการอย่างไร และทำไมสิ่งนี้จึงมีความสำคัญ?" answer: "Prompt injection ได้พัฒนาจากการใช้คำสั่งเชิงลบที่ตรงไปตรงมา (เช่น คำสั่งโดยตรงในหน้าเว็บ) ไปสู่กลยุทธ์วิศวกรรมทางสังคมที่ซับซ้อน การโจมตีในระยะแรกมักถูกตรวจจับได้ด้วยการกรองข้อมูลพื้นฐาน อย่างไรก็ตาม เมื่อโมเดล AI ฉลาดขึ้น ผู้โจมตีก็เริ่มสร้าง prompt ที่ผสมผสานเจตนาร้ายเข้ากับบริบทที่ดูเหมือนถูกต้องตามกฎหมาย เลียนแบบวิศวกรรมทางสังคมของมนุษย์ การเปลี่ยนแปลงนี้มีความสำคัญเนื่องจากหมายความว่าการป้องกันไม่สามารถอาศัยเพียงแค่การระบุสตริงที่เป็นอันตรายได้อีกต่อไป แต่ต้องจัดการกับความท้าทายที่กว้างขึ้นในการต้านทานเนื้อหาที่ทำให้เข้าใจผิดหรือบิดเบือนในบริบท ซึ่งต้องใช้วิธีการด้านความปลอดภัยที่เป็นองค์รวมและเป็นระบบมากขึ้น แทนที่จะเป็นการกรองข้อมูลเข้าแบบง่ายๆ"
- question: "OpenAI ป้องกันการโจมตีแบบ prompt injection จากวิศวกรรมทางสังคมได้อย่างไร?" answer: "OpenAI ใช้กลยุทธ์การป้องกันแบบหลายชั้น โดยเปรียบเทียบจากการจัดการความเสี่ยงด้านวิศวกรรมทางสังคมของมนุษย์ ซึ่งรวมถึงมุมมอง 'ระบบสามผู้กระทำ' (ผู้ใช้, เอเจนต์, โลกภายนอก) โดยที่เอเจนต์จะถูกจำกัดความสามารถเพื่อควบคุมผลกระทบที่อาจเกิดขึ้น เทคนิคสำคัญได้แก่ 'การวิเคราะห์ source-sink' เพื่อตรวจจับการไหลของข้อมูลที่เป็นอันตราย กลไก Safe Url ที่แจ้งให้ผู้ใช้ยืนยันหรือบล็อกการส่งข้อมูลที่ละเอียดอ่อนไปยังบุคคลที่สาม และการใช้ sandboxing สำหรับเครื่องมือแบบเอเจนต์ เช่น ChatGPT Canvas และ Apps เป้าหมายโดยรวมคือเพื่อให้แน่ใจว่าการดำเนินการที่สำคัญหรือการส่งข้อมูลจะไม่เกิดขึ้นอย่างเงียบๆ โดยให้ความสำคัญกับความปลอดภัยและความยินยอมของผู้ใช้เสมอ เพื่อรักษาระบบความปลอดภัยของ AI ที่แข็งแกร่ง"
- question: "Safe Url คืออะไร และปกป้องเอไอเอเจนต์และผู้ใช้ได้อย่างไร?" answer: "Safe Url เป็นกลยุทธ์การบรรเทาผลกระทบที่สำคัญซึ่งพัฒนาโดย OpenAI เพื่อปกป้องเอไอเอเจนต์และผู้ใช้จากการส่งข้อมูลออกโดยไม่ได้รับอนุญาต โดยจะตรวจจับเมื่อข้อมูลที่เอไอเอเจนต์ได้เรียนรู้ระหว่างการสนทนาหรือการโต้ตอบอาจถูกส่งไปยัง URL ของบุคคลที่สามภายนอกที่อาจเป็นอันตราย เมื่อตรวจพบการส่งข้อมูลดังกล่าว Safe Url จะเข้าแทรกแซงโดยการแสดงข้อมูลที่ละเอียดอ่อนให้ผู้ใช้ยืนยันอย่างชัดเจนก่อนส่ง หรือบล็อกการส่งข้อมูลทั้งหมดและสั่งให้เอเจนต์หาวิธีอื่นที่ปลอดภัยในการตอบสนองคำขอของผู้ใช้ กลไกนี้ช่วยให้มั่นใจว่าข้อมูลที่ละเอียดอ่อนยังคงอยู่ภายใต้การควบคุมของผู้ใช้ แม้ว่าเอเจนต์จะถูกชักจูงชั่วคราวด้วย prompt injection ที่เป็นวิศวกรรมทางสังคมก็ตาม"
- question: "ทำไมความยินยอมของผู้ใช้จึงมีความสำคัญอย่างยิ่งสำหรับเอไอเอเจนต์ โดยเฉพาะอย่างยิ่งเมื่อมีความสามารถใหม่ๆ?" answer: "ความยินยอมของผู้ใช้มีความสำคัญสูงสุดสำหรับเอไอเอเจนต์ โดยเฉพาะอย่างยิ่งเมื่อความสามารถของพวกมันขยายไปถึงการเรียกดูข้อมูล, การโต้ตอบกับเครื่องมือภายนอก และการส่งข้อมูล ด้วยกลยุทธ์ prompt injection และวิศวกรรมทางสังคมขั้นสูง เอเจนต์อาจถูกหลอกให้ดำเนินการที่ประนีประนอมความเป็นส่วนตัวหรือความปลอดภัย การกำหนดให้ผู้ใช้ให้ความยินยอมอย่างชัดเจนสำหรับการกระทำที่อาจเป็นอันตราย เช่น การส่งข้อมูลที่ละเอียดอ่อน, การไปยังเว็บไซต์ภายนอก หรือการใช้แอปพลิเคชันภายนอก ช่วยให้ผู้ใช้ยังคงควบคุมได้อย่างสมบูรณ์ สิ่งนี้ช่วยป้องกันการประนีประนอมที่เงียบเชียบและให้อำนาจผู้ใช้ในการยืนยันหรือปฏิเสธการกระทำ ซึ่งทำหน้าที่เป็นชั้นป้องกันสุดท้ายที่สำคัญต่อการบิดเบือนและพฤติกรรมที่ไม่ได้รับอนุญาต โดยสอดคล้องกับหลักการความเป็นส่วนตัวของข้อมูลและเอกราชของผู้ใช้"
- question: "'การวิเคราะห์ source-sink' ในบริบทของความปลอดภัยของ AI คืออะไร?" answer: "การวิเคราะห์ source-sink เป็นแนวทางการวิศวกรรมความปลอดภัยที่ OpenAI ใช้เพื่อระบุและลดความเสี่ยงที่เกี่ยวข้องกับการไหลของข้อมูลภายในระบบ AI ในกรอบการทำงานนี้ 'source' หมายถึงกลไกอินพุตใดๆ ที่ผู้โจมตีสามารถใช้อิทธิพลต่อระบบได้ เช่น เนื้อหาภายนอกที่ไม่น่าเชื่อถือ หน้าเว็บ หรืออีเมลที่ประมวลผลโดยเอไอเอเจนต์ 'sink' หมายถึงความสามารถหรือการกระทำที่หากถูกนำไปใช้ในทางที่ผิด อาจกลายเป็นอันตรายในบริบทที่ไม่เหมาะสม เช่น การส่งข้อมูลไปยังบุคคลที่สาม การติดตามลิงก์ที่เป็นอันตราย หรือการเรียกใช้เครื่องมือ ด้วยการวิเคราะห์เส้นทางที่เป็นไปได้จาก source ไปยัง sink ทีมรักษาความปลอดภัยสามารถใช้การควบคุมเพื่อป้องกันการเคลื่อนย้ายข้อมูลที่ไม่ได้รับอนุญาตหรือการกระทำที่เป็นอันตราย แม้ว่าเอไอเอเจนต์จะถูกโจมตีด้วย prompt injection เพียงบางส่วนก็ตาม วิธีนี้เป็นพื้นฐานในการรับรองความสมบูรณ์ของข้อมูลและความปลอดภัยของระบบ"
เอไอเอเจนต์กำลังขยายขีดความสามารถอย่างรวดเร็ว ตั้งแต่การเรียกดูเว็บไปจนถึงการดึงข้อมูลที่ซับซ้อนและการดำเนินการในนามของผู้ใช้ แม้ว่าความก้าวหน้าเหล่านี้จะให้ประโยชน์และประสิทธิภาพที่ไม่เคยมีมาก่อน แต่ก็ก่อให้เกิดช่องโหว่ในการโจมตีแบบใหม่ที่ซับซ้อนไปพร้อมกัน หัวใจสำคัญของช่องโหว่เหล่านี้คือ prompt injection ซึ่งเป็นวิธีการที่คำสั่งที่เป็นอันตรายถูกฝังอยู่ในเนื้อหาภายนอก โดยมีเป้าหมายเพื่อควบคุมโมเดล AI ให้ดำเนินการที่ไม่พึงประสงค์ OpenAI เน้นย้ำถึงวิวัฒนาการที่สำคัญในการโจมตีเหล่านี้: พวกมันเลียนแบบกลวิธีวิศวกรรมทางสังคมมากขึ้นเรื่อยๆ ซึ่งจำเป็นต้องมีการเปลี่ยนแปลงพื้นฐานในกลยุทธ์การป้องกันจากการกรองข้อมูลเข้าแบบง่ายๆ ไปสู่การออกแบบระบบที่แข็งแกร่ง
ภัยคุกคามที่พัฒนา: Prompt Injection และวิศวกรรมทางสังคม
ในตอนแรก การโจมตีแบบ prompt injection มักจะตรงไปตรงมา เช่น การฝังคำสั่งเชิงปฏิปักษ์โดยตรงไว้ในบทความ Wikipedia ที่เอไอเอเจนต์อาจประมวลผล โมเดลในยุคแรกๆ ซึ่งขาดประสบการณ์ในการฝึกอบรมในสภาพแวดล้อมที่เป็นปฏิปักษ์เช่นนี้ มีแนวโน้มที่จะปฏิบัติตามคำสั่งที่ชัดเจนเหล่านี้โดยไม่มีข้อสงสัย อย่างไรก็ตาม เมื่อโมเดล AI เติบโตและซับซ้อนขึ้น ความเปราะบางต่อข้อเสนอแนะที่ชัดเจนดังกล่าวก็ลดลง สิ่งนี้กระตุ้นให้ผู้โจมตีพัฒนวิธีการที่ละเอียดอ่อนมากขึ้นซึ่งรวมเอาองค์ประกอบของวิศวกรรมทางสังคมเข้าไว้ด้วย
วิวัฒนาการนี้มีความสำคัญเนื่องจากมันก้าวข้ามการระบุสตริงที่เป็นอันตรายเพียงอย่างเดียว แต่กลับท้าทายระบบ AI ให้ต้านทานเนื้อหาที่ทำให้เข้าใจผิดหรือบิดเบือนในบริบทที่กว้างขึ้น คล้ายกับที่มนุษย์ต้องเผชิญกับวิศวกรรมทางสังคม ตัวอย่างเช่น การโจมตีแบบ prompt injection ในปี 2025 ที่รายงานต่อ OpenAI เกี่ยวข้องกับการสร้างอีเมลที่ดูเหมือนไม่มีพิษมีภัย แต่มีคำสั่งฝังอยู่ซึ่งออกแบบมาเพื่อหลอกให้ผู้ช่วย AI ดึงข้อมูลพนักงานที่ละเอียดอ่อนและส่งไปยัง "ระบบตรวจสอบการปฏิบัติตามข้อกำหนด" การโจมตีนี้แสดงให้เห็นอัตราความสำเร็จ 50% ในการทดสอบ ซึ่งแสดงให้เห็นถึงประสิทธิภาพของการผสมผสานคำขอที่ดูเหมือนถูกต้องตามกฎหมายเข้ากับคำสั่งที่เป็นอันตราย การโจมตีที่ซับซ้อนเช่นนี้มักจะเลี่ยงผ่านระบบ "ระบบป้องกัน AI" แบบดั้งเดิม ซึ่งโดยปกติจะพยายามจัดประเภทข้อมูลเข้าโดยอาศัยหลักการง่ายๆ เนื่องจาก การตรวจจับการบิดเบือนที่ละเอียดอ่อนเหล่านี้ทำได้ยากพอๆ กับการแยกแยะคำโกหกหรือข้อมูลที่ผิดโดยไม่มีบริบทสถานการณ์ที่สมบูรณ์
เอไอเอเจนต์ในฐานะคู่เทียบของมนุษย์: บทเรียนจากการป้องกันวิศวกรรมทางสังคม
เพื่อตอบโต้เทคนิค prompt injection ขั้นสูงเหล่านี้ OpenAI ได้นำแนวคิดที่เปลี่ยนไป โดยมองปัญหาผ่านมุมมองของวิศวกรรมทางสังคมของมนุษย์ แนวทางนี้ตระหนักดีว่าเป้าหมายไม่ใช่การระบุข้อมูลเข้าที่เป็นอันตรายทุกชิ้นได้อย่างสมบูรณ์แบบ แต่เป็นการออกแบบเอไอเอเจนต์และระบบเพื่อให้ผลกระทบของการบิดเบือนถูกจำกัดอย่างรุนแรง แม้ว่าการโจมตีจะประสบความสำเร็จบางส่วนก็ตาม แนวคิดนี้คล้ายกับการจัดการความเสี่ยงด้านวิศวกรรมทางสังคมสำหรับพนักงานในองค์กร
พิจารณาตัวแทนบริการลูกค้าที่เป็นมนุษย์ที่ได้รับมอบหมายให้สามารถออกเงินคืนหรือบัตรของขวัญได้ ในขณะที่ตัวแทนตั้งเป้าที่จะให้บริการลูกค้า พวกเขาก็ต้องเผชิญกับข้อมูลภายนอกอย่างต่อเนื่อง ซึ่งบางส่วนอาจเป็นข้อมูลที่บิดเบือนหรือแม้กระทั่งบีบบังคับ องค์กรต่างๆ บรรเทาความเสี่ยงนี้โดยการใช้กฎ ข้อจำกัด และระบบเชิงกำหนด ตัวอย่างเช่น ตัวแทนบริการลูกค้าอาจมีขีดจำกัดจำนวนเงินคืนที่สามารถออกได้ หรือมีขั้นตอนเฉพาะเพื่อแจ้งคำขอที่น่าสงสัย ในทำนองเดียวกัน เอไอเอเจนต์ ในขณะที่ดำเนินการในนามของผู้ใช้ จะต้องมีข้อจำกัดและการป้องกันในตัว ด้วยการคิดถึงเอไอเอเจนต์ภายใน "ระบบสามผู้กระทำ" นี้ (ผู้ใช้, เอเจนต์, โลกภายนอก) ซึ่งเอเจนต์จะต้องนำทางในข้อมูลภายนอกที่อาจเป็นศัตรู นักออกแบบสามารถสร้างความยืดหยุ่นได้ แนวทางนี้ยอมรับว่าการโจมตีบางอย่างจะหลุดรอดไปได้ในที่สุด แต่รับประกันว่าศักยภาพในการทำอันตรายจะลดลง หลักการนี้เป็นรากฐานของชุดมาตรการรับมือที่แข็งแกร่งซึ่ง OpenAI ใช้
| หลักการป้องกัน | คำอธิบาย | การเปรียบเทียบกับระบบของมนุษย์ | ประโยชน์ |
|---|---|---|---|
| ข้อจำกัด | การจำกัดความสามารถและการกระทำของเอเจนต์ให้อยู่ในขอบเขตที่กำหนดไว้ล่วงหน้าและปลอดภัย เพื่อป้องกันการดำเนินการที่ไม่ได้รับอนุญาตหรือกว้างเกินไป | วงเงินการใช้จ่าย, ระดับการอนุญาต, การบังคับใช้นโยบายสำหรับพนักงาน | ลดความเสียหายที่อาจเกิดขึ้นได้แม้เอเจนต์จะถูกบุกรุกบางส่วน |
| ความโปร่งใส | การกำหนดให้ผู้ใช้ยืนยันอย่างชัดเจนสำหรับการกระทำที่อาจเป็นอันตรายหรือละเอียดอ่อนก่อนที่จะดำเนินการ | การอนุมัติของผู้จัดการสำหรับข้อยกเว้น, การตรวจสอบซ้ำการป้อนข้อมูลสำคัญ | ช่วยให้ผู้ใช้สามารถปฏิเสธหรือยืนยันการดำเนินการที่ละเอียดอ่อน ทำให้มั่นใจในการควบคุม |
| การทำ Sandboxing | การแยกการกระทำของเอเจนต์ โดยเฉพาะอย่างยิ่งเมื่อโต้ตอบกับเครื่องมือหรือแอปพลิเคชันภายนอก ภายในสภาพแวดล้อมที่ปลอดภัยและมีการตรวจสอบ | การเข้าถึงระบบที่ละเอียดอ่อนที่ถูกควบคุม, สภาพแวดล้อมเครือข่ายที่แบ่งส่วน | ป้องกันการกระทำที่เป็นอันตรายจากการส่งผลกระทบต่อระบบหลักหรือการขโมยข้อมูล |
| S&S ตามบริบท | การวิเคราะห์แหล่งที่มาของข้อมูลเข้าและปลายทางของข้อมูลออกสำหรับการไหลของข้อมูลที่น่าสงสัยหรือการส่งข้อมูลที่ไม่ได้รับอนุญาต การระบุรูปแบบที่บ่งชี้ถึงเจตนาร้าย | ระบบป้องกันการสูญหายของข้อมูล (DLP), โปรโตคอลการตรวจจับภัยคุกคามภายใน | ระบุและบล็อกความพยายามในการส่งข้อมูลออกโดยไม่ได้รับอนุญาต |
| การฝึกอบรมเชิงปฏิปักษ์ | การฝึกอบรมโมเดล AI อย่างต่อเนื่องให้จดจำและต้านทานภาษาที่บิดเบือน, กลวิธีหลอกลวง และความพยายามทางวิศวกรรมทางสังคม | การฝึกอบรมการรับรู้ด้านความปลอดภัย, การจดจำฟิชชิ่งและการหลอกลวง | ปรับปรุงความสามารถโดยธรรมชาติของเอเจนต์ในการตรวจจับและแจ้งเตือนเนื้อหาที่เป็นอันตราย |
การป้องกันหลายชั้นของ OpenAI ใน ChatGPT
OpenAI ผสานรวมโมเดลวิศวกรรมทางสังคมนี้เข้ากับเทคนิควิศวกรรมความปลอดภัยแบบดั้งเดิม โดยเฉพาะ "การวิเคราะห์ source-sink" ภายใน ChatGPT ในกรอบการทำงานนี้ ผู้โจมตีต้องการสององค์ประกอบหลัก: "source" เพื่อฉีดอิทธิพล (เช่น เนื้อหาภายนอกที่ไม่น่าเชื่อถือ) และ "sink" เพื่อใช้ประโยชน์จากความสามารถที่เป็นอันตราย (เช่น การส่งข้อมูล, การติดตามลิงก์ที่เป็นอันตราย หรือการโต้ตอบกับเครื่องมือที่ถูกบุกรุก) วัตถุประสงค์หลักของ OpenAI คือการรักษาความคาดหวังด้านความปลอดภัยขั้นพื้นฐาน: การดำเนินการที่เป็นอันตรายหรือการส่งข้อมูลที่ละเอียดอ่อนไม่ควรเกิดขึ้นอย่างเงียบๆ หรือปราศจากมาตรการป้องกันที่เหมาะสม
การโจมตี ChatGPT หลายครั้งพยายามหลอกให้ผู้ช่วยดึงข้อมูลการสนทนาที่เป็นความลับและส่งต่อไปยังบุคคลที่สามที่เป็นอันตราย ในขณะที่การฝึกอบรมด้านความปลอดภัยของ OpenAI มักจะทำให้เอเจนต์ปฏิเสธคำขอเหล่านั้น กลยุทธ์การบรรเทาผลกระทบที่สำคัญสำหรับกรณีที่เอเจนต์ ถูกชักจูง คือ Safe Url กลไกนี้ได้รับการออกแบบมาโดยเฉพาะเพื่อตรวจจับเมื่อข้อมูลที่เรียนรู้ระหว่างการสนทนาอาจถูกส่งไปยัง URL ของบุคคลที่สามภายนอก ในกรณีที่เกิดขึ้นไม่บ่อยนักนี้ ระบบจะแสดงข้อมูลให้ผู้ใช้ยืนยันอย่างชัดเจนก่อนส่ง หรือบล็อกการส่งข้อมูลทั้งหมด และสั่งให้เอเจนต์หาวิธีอื่นที่ปลอดภัยในการตอบสนองคำขอของผู้ใช้ สิ่งนี้ช่วยป้องกันการส่งข้อมูลออกแม้ว่าเอเจนต์จะถูกบุกรุกชั่วคราว สำหรับข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับการป้องกันการโต้ตอบกับลิงก์ที่ขับเคลื่อนด้วยเอเจนต์ ผู้ใช้สามารถอ้างอิงโพสต์บล็อกเฉพาะเรื่อง การรักษาข้อมูลของคุณให้ปลอดภัยเมื่อเอไอเอเจนต์คลิกลิงก์
บทบาทของ Safe Url และ Sandboxing ในเอไอแบบตัวแทน
กลไก Safe Url ซึ่งออกแบบมาเพื่อตรวจจับและควบคุมการส่งข้อมูลที่ละเอียดอ่อน ขยายขอบเขตการป้องกันออกไปนอกเหนือจากการคลิกลิงก์เพียงอย่างเดียว มาตรการป้องกันที่คล้ายกันนี้ถูกนำไปใช้กับการนำทางและบุ๊กมาร์กใน Atlas รวมถึงฟังก์ชันการค้นหาและการนำทางใน Deep Research แอปพลิเคชันเหล่านี้โดยธรรมชาติเกี่ยวข้องกับเอไอเอเจนต์ที่โต้ตอบกับแหล่งข้อมูลภายนอกจำนวนมาก ทำให้การควบคุมข้อมูลขาออกมีความสำคัญสูงสุด
นอกจากนี้ คุณสมบัติแบบตัวแทน เช่น ChatGPT Canvas และ ChatGPT Apps ยังใช้ปรัชญาความปลอดภัยที่คล้ายคลึงกัน เมื่อเอเจนต์สร้างและใช้แอปพลิเคชันเชิงฟังก์ชัน การดำเนินการเหล่านี้จะถูกจำกัดอยู่ภายในสภาพแวดล้อม sandbox ที่ปลอดภัย การทำ sandboxing นี้ช่วยให้สามารถตรวจจับการสื่อสารหรือการกระทำที่ไม่คาดคิดได้ สิ่งสำคัญคือ การโต้ตอบที่อาจละเอียดอ่อนหรือไม่ได้รับอนุญาตใดๆ จะกระตุ้นให้มีการร้องขอความยินยอมจากผู้ใช้อย่างชัดเจน ทำให้มั่นใจว่าผู้ใช้ยังคงควบคุมข้อมูลและพฤติกรรมของเอเจนต์ได้อย่างสมบูรณ์ แนวทางหลายชั้นนี้ ซึ่งรวมการวิเคราะห์ source-sink เข้ากับการรับรู้บริบท ความยินยอมของผู้ใช้ และการดำเนินการแบบ sandboxed จะสร้างการป้องกันที่แข็งแกร่งจากการโจมตีแบบ prompt injection และวิศวกรรมทางสังคมที่กำลังพัฒนา สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีที่ความสามารถของเอไอแบบตัวแทนเหล่านี้ถูกนำไปใช้งานอย่างปลอดภัย โปรดดูการสนทนาเกี่ยวกับการ การนำ AI แบบตัวแทนไปใช้งานจริง
การเตรียมพร้อมเอเจนต์อัตโนมัติสำหรับอนาคตเพื่อรับมือกับการโจมตีเชิงปฏิปักษ์
การรับประกันการโต้ตอบที่ปลอดภัยกับโลกภายนอกที่เป็นปฏิปักษ์ไม่ใช่เพียงคุณสมบัติที่พึงปรารถนา แต่เป็นรากฐานที่จำเป็นสำหรับการพัฒนาเอไอเอเจนต์อัตโนมัติอย่างสมบูรณ์ OpenAI แนะนำสำหรับนักพัฒนาที่รวมโมเดล AI เข้ากับแอปพลิเคชันของตน ให้พิจารณาว่าเอเจนต์ที่เป็นมนุษย์จะมีการควบคุมอะไรบ้างในสถานการณ์ที่มีความเสี่ยงสูงที่คล้ายกัน และนำข้อจำกัดที่คล้ายคลึงกันเหล่านั้นไปใช้ภายในระบบ AI
ในขณะที่ความปรารถนาคือการให้โมเดล AI ที่ฉลาดที่สุดสามารถต้านทานวิศวกรรมทางสังคมได้อย่างมีประสิทธิภาพมากกว่าเอเจนต์ที่เป็นมนุษย์ แต่สิ่งนี้ไม่ได้เป็นเป้าหมายที่เป็นไปได้หรือคุ้มค่าเสมอไปสำหรับทุกแอปพลิเคชันในทันที ดังนั้น การออกแบบระบบที่มีข้อจำกัดและการกำกับดูแลในตัวจึงยังคงมีความสำคัญ OpenAI มุ่งมั่นที่จะวิจัยผลกระทบของวิศวกรรมทางสังคมต่อโมเดล AI อย่างต่อเนื่อง และพัฒนาการป้องกันขั้นสูง การค้นพบเหล่านี้ถูกรวมเข้ากับทั้งสถาปัตยกรรมความปลอดภัยของแอปพลิเคชันและกระบวนการฝึกอบรมโมเดล AI อย่างต่อเนื่อง เพื่อให้มั่นใจถึงแนวทางเชิงรุกและปรับตัวได้ต่อความปลอดภัยของ AI ในสภาพแวดล้อมภัยคุกคามที่เปลี่ยนแปลงตลอดเวลา กลยุทธ์ที่มองไปข้างหน้ามุ่งเป้าไปที่การทำให้เอไอเอเจนต์มีประสิทธิภาพและน่าเชื่อถือโดยเนื้อแท้ ซึ่งสะท้อนความพยายามในการเพิ่มความปลอดภัยทั่วทั้งระบบนิเวศ AI รวมถึงความคิดริเริ่มเช่น การขัดขวางการใช้ AI ในทางที่ผิด
คำถามที่พบบ่อย
What is prompt injection in the context of AI agents?
How has prompt injection evolved, and why is this significant?
How does OpenAI defend against social engineering prompt injection attacks?
What is Safe Url, and how does it protect AI agents and users?
Why is user consent crucial for AI agents, especially with new capabilities?
What is 'source-sink' analysis in the context of AI security?
อัปเดตข่าวสาร
รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ
