এআই এজেন্ট: সোশ্যাল ইঞ্জিনিয়ারিং দিয়ে প্রম্পট ইনজেকশন প্রতিরোধ

title: "এআই এজেন্ট: সোশ্যাল ইঞ্জিনিয়ারিং দিয়ে প্রম্পট ইনজেকশন প্রতিরোধ" slug: "designing-agents-to-resist-prompt-injection" date: "2026-03-14" lang: "bn" source: "https://openai.com/index/designing-agents-to-resist-prompt-injection/" category: "এআই নিরাপত্তা" keywords:

এআই এজেন্ট
প্রম্পট ইনজেকশন
এআই নিরাপত্তা
সোশ্যাল ইঞ্জিনিয়ারিং
এলএলএম নিরাপত্তা
ChatGPT
ডেটা গোপনীয়তা
ক্ষতিকারক আক্রমণ
এজেন্টিক এআই
OpenAI
নিরাপত্তা প্রকৌশল
নিরাপদ ইউআরএল meta_description: "জানুন কিভাবে OpenAI উন্নত প্রম্পট ইনজেকশন আক্রমণ প্রতিরোধ করতে সামাজিক প্রকৌশল প্রতিরক্ষা কৌশল ব্যবহার করে এআই এজেন্টদের ডিজাইন করে, যা শক্তিশালী এআই নিরাপত্তা এবং ডেটা গোপনীয়তা নিশ্চিত করে।" image: "/images/articles/designing-agents-to-resist-prompt-injection.png" image_alt: "OpenAI এআই এজেন্টরা প্রম্পট ইনজেকশন এবং সোশ্যাল ইঞ্জিনিয়ারিং আক্রমণ প্রতিরোধ করছে" quality_score: 94 content_score: 93 seo_score: 95 companies:
OpenAI schema_type: "NewsArticle" reading_time: 5 faq:
question: "এআই এজেন্টদের প্রেক্ষাপটে প্রম্পট ইনজেকশন কী?" answer: "প্রম্পট ইনজেকশন হলো এক ধরনের আক্রমণ, যেখানে ক্ষতিকারক নির্দেশাবলী সূক্ষ্মভাবে বাহ্যিক বিষয়বস্তুর মধ্যে ঢুকিয়ে দেওয়া হয় যা একটি এআই এজেন্ট প্রক্রিয়া করে। এর লক্ষ্য হল এজেন্টকে এমন কাজ করতে বা এমন তথ্য প্রকাশ করতে প্রভাবিত করা যা ব্যবহারকারী উদ্দেশ্য করেননি বা অনুমোদন করেননি। এই আক্রমণগুলি এআই-এর নির্দেশাবলী ব্যাখ্যা করার এবং অনুসরণ করার ক্ষমতাকে কাজে লাগায়, এমনকি যদি সেই নির্দেশাবলী একটি অবিশ্বস্ত উৎস থেকে আসে, যা কার্যকরভাবে প্রতিকূল উদ্দেশ্যে এজেন্টের আচরণকে হাইজ্যাক করে। প্রাথমিক রূপগুলি সরাসরি কমান্ড হতে পারে, কিন্তু উন্নত রূপগুলি কম শনাক্তযোগ্য এবং আরও প্ররোচনামূলক হতে সামাজিক প্রকৌশল ব্যবহার করে, যা সিস্টেমের অখণ্ডতা এবং ব্যবহারকারীর বিশ্বাস বজায় রাখার জন্য অত্যাধুনিক পাল্টা ব্যবস্থার প্রয়োজন।"
question: "প্রম্পট ইনজেকশনের কিভাবে বিবর্তন হয়েছে এবং এটি কেন গুরুত্বপূর্ণ?" answer: "প্রম্পট ইনজেকশন সহজ, স্পষ্ট প্রতিপক্ষীয় কমান্ড (যেমন, একটি ওয়েবপেজে সরাসরি নির্দেশাবলী) থেকে শুরু করে পরিশীলিত সামাজিক প্রকৌশল কৌশলে বিকশিত হয়েছে। প্রাথমিক আক্রমণগুলি প্রায়শই মৌলিক ফিল্টারিং দ্বারা ধরা পড়ত। তবে, এআই মডেলগুলি স্মার্ট হওয়ার সাথে সাথে, আক্রমণকারীরা এমন প্রম্পট তৈরি করতে শুরু করেছে যা ক্ষতিকারক উদ্দেশ্যকে আপাতদৃষ্টিতে বৈধ প্রসঙ্গের সাথে মিশ্রিত করে, মানুষের সামাজিক প্রকৌশলকে অনুকরণ করে। এই পরিবর্তনটি গুরুত্বপূর্ণ কারণ এর অর্থ হল প্রতিরক্ষা ব্যবস্থা আর শুধুমাত্র ক্ষতিকারক স্ট্রিং সনাক্তকরণের উপর নির্ভর করতে পারে না। পরিবর্তে, তাদের প্রসঙ্গে বিভ্রান্তিকর বা কারসাজিমূলক বিষয়বস্তু প্রতিরোধের বৃহত্তর চ্যালেঞ্জ মোকাবিলা করতে হবে, যা শুধুমাত্র সহজ ইনপুট ফিল্টারিংয়ের পরিবর্তে নিরাপত্তার জন্য একটি আরও সামগ্রিক, পদ্ধতিগত পদ্ধতির প্রয়োজন।"
question: "OpenAI কিভাবে সোশ্যাল ইঞ্জিনিয়ারিং প্রম্পট ইনজেকশন আক্রমণ থেকে রক্ষা করে?" answer: "OpenAI একটি বহু-স্তরীয় প্রতিরক্ষা কৌশল ব্যবহার করে, যা মানুষের সামাজিক প্রকৌশল ঝুঁকি ব্যবস্থাপনার সমান্তরাল। এর মধ্যে একটি 'তিন-অভিনেতা সিস্টেম' দৃষ্টিকোণ (ব্যবহারকারী, এজেন্ট, বাহ্যিক বিশ্ব) অন্তর্ভুক্ত যেখানে এজেন্টদের সম্ভাব্য প্রভাব সীমিত করার জন্য সীমাবদ্ধতা দেওয়া হয়। মূল কৌশলগুলির মধ্যে রয়েছে বিপজ্জনক ডেটা প্রবাহ সনাক্ত করার জন্য 'সোর্স-সিঙ্ক বিশ্লেষণ', তৃতীয় পক্ষের কাছে সংবেদনশীল সংক্রমণ নিশ্চিত করতে বা ব্লক করতে Safe Url মেকানিজম, এবং ChatGPT Canvas এবং Apps-এর মতো এজেন্টিক সরঞ্জামগুলির জন্য স্যান্ডবক্সিং। সামগ্রিক লক্ষ্য হল সমালোচনামূলক ক্রিয়া বা ডেটা সংক্রমণ যেন নিঃশব্দে না ঘটে তা নিশ্চিত করা, সর্বদা ব্যবহারকারীর সুরক্ষা এবং সম্মতিকে অগ্রাধিকার দিয়ে শক্তিশালী এআই নিরাপত্তা বজায় রাখা।"
question: "Safe Url কী, এবং এটি কীভাবে এআই এজেন্ট এবং ব্যবহারকারীদের রক্ষা করে?" answer: "Safe Url হল OpenAI দ্বারা তৈরি একটি গুরুত্বপূর্ণ প্রশমন কৌশল যা এআই এজেন্ট এবং ব্যবহারকারীদের অননুমোদিত ডেটা এক্সফিল্ট্রেশন থেকে রক্ষা করার জন্য ডিজাইন করা হয়েছে। এটি শনাক্ত করে যখন একটি এআই এজেন্ট কথোপকথন বা মিথস্ক্রিয়ার সময় যে তথ্য শিখেছে তা একটি বাহ্যিক, সম্ভাব্য ক্ষতিকারক, তৃতীয় পক্ষের URL-এ স্থানান্তরিত হতে পারে। যখন এই ধরনের একটি সংক্রমণ সনাক্ত করা হয়, Safe Url হস্তক্ষেপ করে হয় ব্যবহারকারীকে প্রেরণের আগে স্পষ্ট নিশ্চিতকরণের জন্য সংবেদনশীল তথ্য প্রদর্শন করে, অথবা সম্পূর্ণরূপে সংক্রমণ ব্লক করে এবং এজেন্টকে ব্যবহারকারীর অনুরোধ পূরণ করার জন্য একটি বিকল্প, নিরাপদ পদ্ধতি খুঁজে বের করার নির্দেশ দেয়। এই প্রক্রিয়াটি নিশ্চিত করে যে সংবেদনশীল ডেটা ব্যবহারকারীর নিয়ন্ত্রণে থাকে, এমনকি যদি একটি এজেন্ট সাময়িকভাবে সামাজিক প্রকৌশল প্রম্পট ইনজেকশন দ্বারা প্রভাবিত হয়।"
question: "এআই এজেন্টদের জন্য ব্যবহারকারীর সম্মতি কেন গুরুত্বপূর্ণ, বিশেষ করে নতুন ক্ষমতার সাথে?" answer: "এআই এজেন্টদের জন্য ব্যবহারকারীর সম্মতি অত্যন্ত গুরুত্বপূর্ণ, বিশেষ করে যখন তাদের ক্ষমতা ব্রাউজিং, বাহ্যিক সরঞ্জামের সাথে ইন্টারঅ্যাক্ট করা এবং তথ্য প্রেরণের অন্তর্ভুক্তিতে প্রসারিত হয়। উন্নত প্রম্পট ইনজেকশন এবং সামাজিক প্রকৌশল কৌশলগুলির সাথে, একটি এজেন্ট গোপনীয়তা বা নিরাপত্তা ভঙ্গকারী কাজ করতে প্রলুব্ধ হতে পারে। সম্ভাব্য বিপজ্জনক কাজগুলির জন্য স্পষ্ট ব্যবহারকারীর সম্মতি চাওয়া—যেমন সংবেদনশীল ডেটা প্রেরণ করা, বাহ্যিক সাইটগুলিতে নেভিগেট করা বা বাহ্যিক অ্যাপ্লিকেশন ব্যবহার করা—নিশ্চিত করে যে ব্যবহারকারীরা চূড়ান্ত নিয়ন্ত্রণ বজায় রাখেন। এটি নীরব আপস প্রতিরোধ করে এবং ব্যবহারকারীদের কাজগুলি নিশ্চিত বা অস্বীকার করার ক্ষমতা দেয়, যা ম্যানিপুলেশন এবং অননুমোদিত আচরণের বিরুদ্ধে প্রতিরক্ষার একটি গুরুত্বপূর্ণ চূড়ান্ত স্তর হিসাবে কাজ করে, ডেটা গোপনীয়তা এবং ব্যবহারকারীর স্বায়ত্তশাসনের নীতিগুলির সাথে সঙ্গতিপূর্ণ।"
question: "এআই নিরাপত্তার প্রেক্ষাপটে 'সোর্স-সিঙ্ক' বিশ্লেষণ কী?" answer: "সোর্স-সিঙ্ক বিশ্লেষণ হল OpenAI দ্বারা ব্যবহৃত একটি নিরাপত্তা প্রকৌশল পদ্ধতি যা এআই সিস্টেমের মধ্যে ডেটা প্রবাহের সাথে সম্পর্কিত ঝুঁকিগুলি চিহ্নিত করতে এবং প্রশমিত করতে ব্যবহৃত হয়। এই কাঠামোর মধ্যে, একটি 'সোর্স' বলতে বোঝায় এমন কোনো ইনপুট মেকানিজম যার মাধ্যমে একজন আক্রমণকারী সিস্টেমকে প্রভাবিত করতে পারে, যেমন অবিশ্বস্ত বাহ্যিক বিষয়বস্তু, ওয়েবপেজ, বা একটি এআই এজেন্ট দ্বারা প্রক্রিয়াকৃত ইমেল। একটি 'সিঙ্ক' বলতে বোঝায় একটি ক্ষমতা বা কাজ যা, যদি অপব্যবহার করা হয়, ভুল প্রসঙ্গে বিপজ্জনক হতে পারে, যেমন তৃতীয় পক্ষের কাছে তথ্য প্রেরণ করা, একটি ক্ষতিকারক লিঙ্ক অনুসরণ করা, বা একটি টুল কার্যকর করা। সোর্স থেকে সিঙ্ক পর্যন্ত সম্ভাব্য পথগুলি বিশ্লেষণ করে, নিরাপত্তা দলগুলি অননুমোদিত ডেটা চলাচল বা বিপজ্জনক ক্রিয়া প্রতিরোধ করার জন্য নিয়ন্ত্রণগুলি প্রয়োগ করতে পারে, এমনকি যদি একটি এআই এজেন্ট প্রম্পট ইনজেকশন আক্রমণ দ্বারা আংশিকভাবে প্রভাবিত হয়। এই পদ্ধতিটি ডেটা অখণ্ডতা এবং সিস্টেম নিরাপত্তা নিশ্চিত করার জন্য মৌলিক।"

এআই এজেন্টরা তাদের ক্ষমতা দ্রুত প্রসারিত করছে, ওয়েব ব্রাউজ করা থেকে শুরু করে জটিল তথ্য পুনরুদ্ধার করা এবং ব্যবহারকারীদের পক্ষে কাজ সম্পাদন করা পর্যন্ত। যদিও এই অগ্রগতিগুলি অভূতপূর্ব উপযোগিতা এবং দক্ষতার প্রতিশ্রুতি দেয়, তারা একই সাথে পরিশীলিত নতুন আক্রমণের ক্ষেত্র তৈরি করে। এর মধ্যে প্রধান হল প্রম্পট ইনজেকশন—একটি পদ্ধতি যেখানে ক্ষতিকারক নির্দেশাবলী বাহ্যিক বিষয়বস্তুর মধ্যে ঢুকিয়ে দেওয়া হয়, যার লক্ষ্য একটি এআই মডেলকে অনিচ্ছাকৃত কাজ করতে প্রভাবিত করা। OpenAI এই আক্রমণগুলির একটি গুরুত্বপূর্ণ বিবর্তন তুলে ধরেছে: তারা ক্রমবর্ধমানভাবে সামাজিক প্রকৌশল কৌশলগুলি অনুকরণ করছে, যার জন্য সাধারণ ইনপুট ফিল্টারিং থেকে শক্তিশালী পদ্ধতিগত ডিজাইনের দিকে প্রতিরক্ষা কৌশলগুলির একটি মৌলিক পরিবর্তন প্রয়োজন।

বিবর্তনশীল হুমকি: প্রম্পট ইনজেকশন এবং সোশ্যাল ইঞ্জিনিয়ারিং

প্রাথমিকভাবে, প্রম্পট ইনজেকশন আক্রমণগুলি প্রায়শই সহজবোধ্য ছিল, যেমন একটি উইকিপিডিয়া নিবন্ধের মধ্যে সরাসরি প্রতিপক্ষীয় কমান্ড ঢুকিয়ে দেওয়া যা একটি এআই এজেন্ট প্রক্রিয়া করতে পারে। প্রাথমিক মডেলগুলি, এমন প্রতিকূল পরিবেশে প্রশিক্ষণের অভিজ্ঞতার অভাবে, প্রশ্ন ছাড়াই এই স্পষ্ট নির্দেশাবলী অনুসরণ করতে প্রবণ ছিল। তবে, এআই মডেলগুলি পরিপক্ক এবং আরও পরিশীলিত হওয়ার সাথে সাথে, এই ধরনের স্পষ্ট পরামর্শের প্রতি তাদের দুর্বলতা হ্রাস পেয়েছে। এটি আক্রমণকারীদের সামাজিক প্রকৌশলের উপাদানগুলিকে অন্তর্ভুক্ত করে আরও সূক্ষ্ম পদ্ধতি তৈরি করতে উৎসাহিত করেছিল।

এই বিবর্তনটি গুরুত্বপূর্ণ কারণ এটি শুধুমাত্র একটি ক্ষতিকারক স্ট্রিং সনাক্তকরণের বাইরে চলে যায়। পরিবর্তে, এটি এআই সিস্টেমগুলিকে বৃহত্তর প্রেক্ষাপটে বিভ্রান্তিকর বা কারসাজিমূলক বিষয়বস্তু প্রতিরোধ করার জন্য চ্যালেঞ্জ করে, ঠিক যেমন একজন মানুষ সামাজিক প্রকৌশলের মুখোমুখি হবে। উদাহরণস্বরূপ, OpenAI-কে জানানো 2025 সালের একটি প্রম্পট ইনজেকশন আক্রমণে এমন একটি ইমেল তৈরি করা জড়িত ছিল যা নির্দোষ মনে হলেও এতে এমন নির্দেশাবলী এম্বেড করা হয়েছিল যা একটি এআই সহকারীকে সংবেদনশীল কর্মচারী ডেটা বের করতে এবং একটি "কমপ্লায়েন্স ভ্যালিডেশন সিস্টেম"-এ জমা দিতে প্রতারিত করার জন্য ডিজাইন করা হয়েছিল। এই আক্রমণে পরীক্ষায় 50% সাফল্যের হার দেখা গেছে, যা বৈধ-শব্দযুক্ত অনুরোধগুলিকে ক্ষতিকারক নির্দেশাবলীর সাথে মিশ্রিত করার কার্যকারিতা প্রদর্শন করে। এই ধরনের জটিল আক্রমণগুলি প্রায়শই ঐতিহ্যবাহী "এআই ফায়ারওয়ালিং" সিস্টেমগুলিকে বাইপাস করে, যা সাধারণত সাধারণ হিউরিস্টিকসের উপর ভিত্তি করে ইনপুটগুলিকে শ্রেণীবদ্ধ করার চেষ্টা করে, কারণ এই সূক্ষ্ম কারসাজিগুলি সনাক্ত করা একটি মিথ্যা বা ভুল তথ্য সম্পূর্ণ পরিস্থিতিগত প্রেক্ষাপট ছাড়া সনাক্ত করার মতোই কঠিন হয়ে পড়ে।

মানুষের সমকক্ষ হিসেবে এআই এজেন্ট: সোশ্যাল ইঞ্জিনিয়ারিং প্রতিরক্ষা থেকে শিক্ষা

এই উন্নত প্রম্পট ইনজেকশন কৌশলগুলির মোকাবিলা করার জন্য, OpenAI একটি দৃষ্টান্তমূলক পরিবর্তন গ্রহণ করেছে, মানব সামাজিক প্রকৌশলের দৃষ্টিভঙ্গির মাধ্যমে সমস্যাটিকে দেখছে। এই পদ্ধতিটি স্বীকার করে যে লক্ষ্য প্রতিটি ক্ষতিকারক ইনপুটের নিখুঁত সনাক্তকরণ নয়, বরং এআই এজেন্ট এবং সিস্টেমগুলিকে এমনভাবে ডিজাইন করা যাতে কারসাজির প্রভাব গুরুতরভাবে সীমিত থাকে, এমনকি যদি একটি আক্রমণ আংশিকভাবে সফল হয়। এই মানসিকতা একটি সংস্থার মধ্যে মানব কর্মচারীদের জন্য সামাজিক প্রকৌশল ঝুঁকি ব্যবস্থাপনার অনুরূপ।

একজন মানব গ্রাহক সেবা এজেন্টের কথা ভাবুন যাকে রিফান্ড বা উপহার কার্ড ইস্যু করার ক্ষমতা দেওয়া হয়েছে। যদিও এজেন্ট গ্রাহকদের সেবা দিতে চায়, তারা ক্রমাগত বাহ্যিক ইনপুটের সংস্পর্শে থাকে — যার কিছু কারসাজিমূলক বা এমনকি জবরদস্তিও হতে পারে। সংস্থাগুলি নিয়ম, সীমাবদ্ধতা এবং ডিটারমিনিস্টিক সিস্টেম প্রয়োগ করে এই ঝুঁকি প্রশমিত করে। উদাহরণস্বরূপ, একজন গ্রাহক সেবা এজেন্টের ইস্যু করতে পারা রিফান্ডের সংখ্যার উপর একটি সীমা থাকতে পারে, অথবা সন্দেহজনক অনুরোধ চিহ্নিত করার জন্য নির্দিষ্ট পদ্ধতি থাকতে পারে। একইভাবে, একটি এআই এজেন্ট, একজন ব্যবহারকারীর পক্ষে কাজ করার সময়, তার সহজাত সীমাবদ্ধতা এবং সুরক্ষা থাকতে হবে। এই 'তিন-অভিনেতা সিস্টেম' (ব্যবহারকারী, এজেন্ট, বাহ্যিক বিশ্ব) এর মধ্যে এআই এজেন্টদের কল্পনা করে, যেখানে এজেন্টকে সম্ভাব্য প্রতিকূল বাহ্যিক ইনপুটগুলি নেভিগেট করতে হবে, ডিজাইনাররা স্থিতিস্থাপকতা তৈরি করতে পারে। এই পদ্ধতিটি স্বীকার করে যে কিছু আক্রমণ অনিবার্যভাবে চলে যাবে, তবে তাদের ক্ষতির সম্ভাবনা হ্রাস করা নিশ্চিত করে। এই নীতি OpenAI দ্বারা মোতায়েন করা পাল্টা ব্যবস্থার একটি শক্তিশালী স্যুটের ভিত্তি।

প্রতিরক্ষা নীতি	বর্ণনা	মানব সিস্টেমের সাথে সাদৃশ্য	সুবিধা
সীমাবদ্ধতা	এজেন্টের ক্ষমতা এবং ক্রিয়াগুলিকে পূর্বনির্ধারিত, নিরাপদ সীমার মধ্যে সীমাবদ্ধ করা, অননুমোদিত বা অত্যধিক বিস্তৃত অপারেশন প্রতিরোধ করা।	ব্যয় সীমা, অনুমোদন স্তর, কর্মচারীদের জন্য নীতি প্রয়োগ।	এমনকি যদি একজন এজেন্ট আংশিকভাবে প্রভাবিত হয় তাহলেও সম্ভাব্য ক্ষতি হ্রাস করে।
স্বচ্ছতা	সম্ভাব্য বিপজ্জনক বা সংবেদনশীল কাজগুলি কার্যকর করার আগে স্পষ্ট ব্যবহারকারীর নিশ্চিতকরণ চাওয়া।	ব্যতিক্রমের জন্য ম্যানেজার অনুমোদন, গুরুত্বপূর্ণ ডেটা এন্ট্রি দুবার পরীক্ষা করা।	সংবেদনশীল অপারেশনগুলি ওভাররাইড বা নিশ্চিত করতে ব্যবহারকারীদের ক্ষমতায়ন করে, নিয়ন্ত্রণ নিশ্চিত করে।
স্যান্ডবক্সিং	এজেন্টের কাজগুলিকে, বিশেষ করে বাহ্যিক সরঞ্জাম বা অ্যাপ্লিকেশনগুলির সাথে ইন্টারঅ্যাক্ট করার সময়, একটি সুরক্ষিত, নিরীক্ষিত পরিবেশে বিচ্ছিন্ন করা।	সংবেদনশীল সিস্টেমে নিয়ন্ত্রিত প্রবেশাধিকার, বিভাজিত নেটওয়ার্ক পরিবেশ।	ক্ষতিকারক ক্রিয়াগুলি মূল সিস্টেমকে প্রভাবিত করা বা ডেটা এক্সফিল্ট্রেট করা থেকে প্রতিরোধ করে।
প্রাসঙ্গিক S&S	সন্দেহজনক ডেটা প্রবাহ বা অননুমোদিত সংক্রমণের জন্য ইনপুট উত্স এবং আউটপুট সিঙ্ক বিশ্লেষণ করা, ক্ষতিকারক উদ্দেশ্য নির্দেশ করে এমন প্যাটার্ন সনাক্ত করা।	ডেটা লস প্রিভেনশন (DLP) সিস্টেম, ইনসাইডার থ্রেট ডিটেকশন প্রোটোকল।	অননুমোদিত ডেটা এক্সফিল্ট্রেশন প্রচেষ্টা চিহ্নিত করে এবং ব্লক করে।
প্রতিকূল প্রশিক্ষণ	ক্রমাগত এআই মডেলগুলিকে কারসাজিমূলক ভাষা, প্রতারণামূলক কৌশল এবং সামাজিক প্রকৌশল প্রচেষ্টা চিনতে ও প্রতিরোধ করতে প্রশিক্ষণ দেওয়া।	নিরাপত্তা সচেতনতা প্রশিক্ষণ, ফিশিং এবং স্ক্যাম প্রচেষ্টা সনাক্তকরণ।	ক্ষতিকারক বিষয়বস্তু সনাক্ত করতে এবং ফ্ল্যাগ করতে এজেন্টের সহজাত ক্ষমতা উন্নত করে।

ChatGPT-তে OpenAI-এর বহু-স্তরীয় প্রতিরক্ষা

OpenAI ChatGPT-এর মধ্যে ঐতিহ্যবাহী নিরাপত্তা প্রকৌশল কৌশলগুলির সাথে এই সামাজিক প্রকৌশল মডেলকে একীভূত করে, বিশেষ করে "সোর্স-সিঙ্ক বিশ্লেষণ"। এই কাঠামোতে, একজন আক্রমণকারীর দুটি মূল উপাদান প্রয়োজন: প্রভাব ইনজেক্ট করার জন্য একটি "সোর্স" (যেমন, অবিশ্বস্ত বাহ্যিক বিষয়বস্তু) এবং একটি বিপজ্জনক ক্ষমতা কাজে লাগানোর জন্য একটি "সিঙ্ক" (যেমন, তথ্য প্রেরণ করা, একটি ক্ষতিকারক লিঙ্ক অনুসরণ করা বা একটি আপোস করা সরঞ্জামের সাথে ইন্টারঅ্যাক্ট করা)। OpenAI-এর প্রাথমিক লক্ষ্য হল একটি মৌলিক নিরাপত্তা প্রত্যাশা বজায় রাখা: বিপজ্জনক ক্রিয়া বা সংবেদনশীল তথ্যের সংক্রমণ কখনই নিঃশব্দে বা পর্যাপ্ত সুরক্ষা ব্যবস্থা ছাড়াই হওয়া উচিত নয়।

ChatGPT-এর বিরুদ্ধে অনেক আক্রমণে সহকারিকে গোপন কথোপকথনমূলক তথ্য বের করতে এবং একটি ক্ষতিকারক তৃতীয় পক্ষের কাছে রিলে করতে প্রতারিত করার চেষ্টা করা হয়। যদিও OpenAI-এর নিরাপত্তা প্রশিক্ষণ প্রায়শই এজেন্টকে এই ধরনের অনুরোধ প্রত্যাখ্যান করতে পরিচালিত করে, তবে যে ক্ষেত্রে এজেন্ট প্ররোচিত হয় তার জন্য একটি গুরুত্বপূর্ণ প্রশমন কৌশল হল Safe Url। এই প্রক্রিয়াটি বিশেষভাবে ডিজাইন করা হয়েছে যখন একটি কথোপকথনের সময় শেখা তথ্য একটি বাহ্যিক তৃতীয় পক্ষের URL-এ স্থানান্তরিত হতে পারে তা শনাক্ত করার জন্য। এই ধরনের বিরল ক্ষেত্রে, সিস্টেম হয় ব্যবহারকারীকে স্পষ্ট নিশ্চিতকরণের জন্য তথ্য প্রদর্শন করে অথবা সম্পূর্ণরূপে সংক্রমণ ব্লক করে, এজেন্টকে ব্যবহারকারীর অনুরোধ পূরণ করার জন্য একটি বিকল্প, নিরাপদ উপায় খুঁজে বের করতে প্ররোচিত করে। এটি ডেটা এক্সফিল্ট্রেশন প্রতিরোধ করে, এমনকি যদি এজেন্ট সাময়িকভাবে প্রভাবিত হয়। এজেন্ট-চালিত লিঙ্ক ইন্টারঅ্যাকশন থেকে রক্ষা পাওয়ার বিষয়ে আরও তথ্যের জন্য, ব্যবহারকারীরা ডেডিকেটেড ব্লগ পোস্ট, একটি এআই এজেন্ট একটি লিঙ্কে ক্লিক করলে আপনার ডেটা সুরক্ষিত রাখা দেখতে পারেন।

এজেন্টিক এআই-তে Safe URL এবং স্যান্ডবক্সিং-এর ভূমিকা

Safe Url প্রক্রিয়া, যা সংবেদনশীল ডেটা সংক্রমণ সনাক্তকরণ এবং নিয়ন্ত্রণের জন্য ডিজাইন করা হয়েছে, এটি কেবলমাত্র লিঙ্ক ক্লিকের বাইরে তার সুরক্ষামূলক প্রসার বাড়ায়। Atlas-এর মধ্যে নেভিগেশন এবং বুকমার্কগুলির পাশাপাশি Deep Research-এর অনুসন্ধান এবং নেভিগেশন ফাংশনগুলিতেও অনুরূপ সুরক্ষা ব্যবস্থা প্রয়োগ করা হয়। এই অ্যাপ্লিকেশনগুলি সহজাতভাবে এআই এজেন্টদের বিশাল বাহ্যিক ডেটা উত্সের সাথে ইন্টারঅ্যাক্ট করতে জড়িত করে, যার ফলে বহির্গামী ডেটার জন্য শক্তিশালী নিয়ন্ত্রণগুলি অত্যন্ত গুরুত্বপূর্ণ হয়ে ওঠে।

এছাড়াও, ChatGPT Canvas এবং ChatGPT Apps-এর মতো এজেন্টিক বৈশিষ্ট্যগুলি একটি অনুরূপ নিরাপত্তা দর্শন গ্রহণ করে। যখন এজেন্টরা কার্যকরী অ্যাপ্লিকেশন তৈরি এবং ব্যবহার করে, তখন এই অপারেশনগুলি একটি সুরক্ষিত স্যান্ডবক্স পরিবেশে সীমাবদ্ধ থাকে। এই স্যান্ডবক্সিং অপ্রত্যাশিত যোগাযোগ বা ক্রিয়া সনাক্তকরণের সুযোগ দেয়। গুরুত্বপূর্ণভাবে, যেকোনো সম্ভাব্য সংবেদনশীল বা অননুমোদিত ইন্টারঅ্যাকশন স্পষ্ট ব্যবহারকারীর সম্মতির জন্য একটি অনুরোধ ট্রিগার করে, যা নিশ্চিত করে যে ব্যবহারকারীরা তাদের ডেটা এবং এজেন্টের আচরণের উপর চূড়ান্ত নিয়ন্ত্রণ বজায় রাখে। এই বহু-স্তরীয় পদ্ধতি, যা সোর্স-সিঙ্ক বিশ্লেষণকে প্রাসঙ্গিক সচেতনতা, ব্যবহারকারীর সম্মতি এবং স্যান্ডবক্সড এক্সিকিউশনের সাথে একত্রিত করে, বিবর্তনশীল প্রম্পট ইনজেকশন এবং সামাজিক প্রকৌশল আক্রমণগুলির বিরুদ্ধে একটি শক্তিশালী প্রতিরক্ষা তৈরি করে। এই এজেন্টিক ক্ষমতাগুলি কীভাবে নিরাপদে পরিচালিত হচ্ছে সে সম্পর্কে আরও বিশদ বিবরণের জন্য, এজেন্টিক এআই অপারেশনাইজ করা: একটি স্টেকহোল্ডার গাইড নিয়ে আলোচনা দেখুন।

প্রতিকূল আক্রমণের বিরুদ্ধে স্বায়ত্তশাসিত এজেন্টদের ভবিষ্যত-প্রস্তুত করা

প্রতিকূল বাইরের বিশ্বের সাথে নিরাপদ মিথস্ক্রিয়া নিশ্চিত করা শুধুমাত্র একটি কাঙ্ক্ষিত বৈশিষ্ট্য নয়, বরং সম্পূর্ণ স্বায়ত্তশাসিত এআই এজেন্টদের বিকাশের জন্য একটি প্রয়োজনীয় ভিত্তি। OpenAI-এর সুপারিশ হল ডেভেলপারদের জন্য যারা তাদের অ্যাপ্লিকেশনগুলিতে এআই মডেলগুলিকে একীভূত করছেন, তারা যেন বিবেচনা করেন যে একটি অনুরূপ উচ্চ-ঝুঁকির পরিস্থিতিতে একজন মানব এজেন্টের কী নিয়ন্ত্রণ থাকবে এবং সেই অনুরূপ সীমাবদ্ধতাগুলি এআই সিস্টেমের মধ্যে প্রয়োগ করেন।

যদিও সর্বোচ্চ বুদ্ধিমান এআই মডেলগুলির আকাঙ্ক্ষা হল শেষ পর্যন্ত মানব এজেন্টদের চেয়ে আরও কার্যকরভাবে সামাজিক প্রকৌশল প্রতিরোধ করা, তবে এটি প্রতিটি অ্যাপ্লিকেশনের জন্য সর্বদা একটি কার্যকর বা ব্যয়-সাশ্রয়ী তাৎক্ষণিক লক্ষ্য নয়। অতএব, অন্তর্নির্মিত সীমাবদ্ধতা এবং তত্ত্বাবধান সহ সিস্টেম ডিজাইন করা অত্যন্ত গুরুত্বপূর্ণ। OpenAI এআই মডেলগুলির বিরুদ্ধে সামাজিক প্রকৌশলের প্রভাব নিয়ে ক্রমাগত গবেষণা করতে এবং উন্নত প্রতিরক্ষা ব্যবস্থা তৈরি করতে প্রতিশ্রুতিবদ্ধ। এই অনুসন্ধানগুলি তাদের অ্যাপ্লিকেশন নিরাপত্তা আর্কিটেকচার এবং তাদের এআই মডেলগুলির চলমান প্রশিক্ষণ প্রক্রিয়া উভয় ক্ষেত্রেই একীভূত করা হয়, যা একটি সর্বদা বিবর্তনশীল হুমকির পরিস্থিতিতে এআই সুরক্ষায় একটি সক্রিয় এবং অভিযোজিত পদ্ধতি নিশ্চিত করে। এই দূরদর্শী কৌশলটির লক্ষ্য হল এআই এজেন্টদের শক্তিশালী এবং সহজাতভাবে বিশ্বস্ত করে তোলা, যা এআই ইকোসিস্টেম জুড়ে নিরাপত্তা বাড়ানোর প্রচেষ্টার প্রতিধ্বনি করে, যার মধ্যে ক্ষতিকারক এআই ব্যবহার বন্ধ করা এর মতো উদ্যোগও রয়েছে।

মূল উৎস

https://openai.com/index/designing-agents-to-resist-prompt-injection/

সচরাচর জিজ্ঞাসিত প্রশ্ন

What is prompt injection in the context of AI agents?

Prompt injection refers to a type of attack where malicious instructions are subtly embedded within external content that an AI agent processes. The goal is to manipulate the agent into performing actions or revealing information that the user did not intend or authorize. These attacks exploit the AI's ability to interpret and follow instructions, even if those instructions originate from an untrusted source, effectively hijacking the agent's behavior for adversarial purposes. Early forms might be direct commands, but advanced forms leverage social engineering to be less detectable and more persuasive, requiring sophisticated countermeasures to maintain system integrity and user trust.

How has prompt injection evolved, and why is this significant?

Prompt injection has evolved from simple, explicit adversarial commands (e.g., direct instructions in a web page) to sophisticated social engineering tactics. Early attacks were often caught by basic filtering. However, as AI models became smarter, attackers started crafting prompts that blend malicious intent with seemingly legitimate context, mimicking human social engineering. This shift is significant because it means defenses can no longer rely solely on identifying malicious strings. Instead, they must address the broader challenge of resisting misleading or manipulative content in context, requiring a more holistic, systemic approach to security rather than just simple input filtering.

How does OpenAI defend against social engineering prompt injection attacks?

OpenAI employs a multi-layered defense strategy, drawing parallels from human social engineering risk management. This includes a 'three-actor system' perspective (user, agent, external world) where agents are given limitations to constrain potential impact. Key techniques include 'source-sink analysis' to detect dangerous data flows, Safe Url mechanisms that prompt user confirmation or block sensitive transmissions to third parties, and sandboxing for agentic tools like ChatGPT Canvas and Apps. The overarching goal is to ensure that critical actions or data transmissions do not happen silently, always prioritizing user safety and consent to maintain robust AI security.

What is Safe Url, and how does it protect AI agents and users?

Safe Url is a critical mitigation strategy developed by OpenAI designed to protect AI agents and users from unauthorized data exfiltration. It detects when information that an AI agent has learned during a conversation or interaction might be transmitted to an external, potentially malicious, third-party URL. When such a transmission is detected, Safe Url intervenes by either displaying the sensitive information to the user for explicit confirmation before sending it, or by blocking the transmission entirely and instructing the agent to find an alternative, secure method to fulfill the user's request. This mechanism ensures that sensitive data remains under user control, even if an agent is momentarily swayed by a social engineering prompt injection.

Why is user consent crucial for AI agents, especially with new capabilities?

User consent is paramount for AI agents, particularly as their capabilities expand to include browsing, interacting with external tools, and transmitting information. With advanced prompt injection and social engineering tactics, an agent might be tricked into performing actions that compromise privacy or security. Requiring explicit user consent for potentially dangerous actions—like transmitting sensitive data, navigating to external sites, or using external applications—ensures that users maintain ultimate control. This prevents silent compromises and empowers users to confirm or deny actions, acting as a crucial final layer of defense against manipulation and unauthorized behavior, aligning with principles of data privacy and user autonomy.

What is 'source-sink' analysis in the context of AI security?

Source-sink analysis is a security engineering approach used by OpenAI to identify and mitigate risks associated with data flow within AI systems. In this framework, a 'source' refers to any input mechanism through which an attacker can influence the system, such as untrusted external content, web pages, or emails processed by an AI agent. A 'sink' refers to a capability or action that, if exploited, could become dangerous in the wrong context, such as transmitting information to a third party, following a malicious link, or executing a tool. By analyzing potential paths from sources to sinks, security teams can implement controls to prevent unauthorized data movement or dangerous actions, even if an AI agent is partially compromised by a prompt injection attack. This method is fundamental to ensuring data integrity and system security.

আপডেট থাকুন

সর্বশেষ AI খবর ইনবক্সে পান।