SageMaker AI: تسریع فراخوانی ابزار عاملمحور با سفارشیسازی سرورلس
هوش مصنوعی عاملمحور (Agentic AI) شیوه تفکر ما را در مورد وظایف خودکار متحول کرده و سیستمها را قادر میسازد تا از طریق ابزارهای تخصصی تصمیمگیری کرده و با جهان تعامل داشته باشند. با این حال، کارایی واقعی عوامل هوش مصنوعی در تولید، منوط به توانایی آنها در انجام مطمئن فراخوانی ابزار عاملمحور است. این همان روشی است که عوامل پایگاههای داده را پرسوجو میکنند، جریانهای کاری پیچیده را فعال میسازند، دادههای بلادرنگ را بازیابی میکنند و از طرف کاربر قاطعانه عمل میکنند. متأسفانه، یک مانع رایج در مسیر پذیرش گسترده، تمایل مدلهای زبان بزرگ پایه (LLM) به توهمزایی ابزارها، ارسال پارامترهای نادرست، یا اقدام به عملیات در مواقعی که نیاز به شفافسازی است، بوده است. چنین شکستهایی اعتماد را از بین میبرد و استقرار در محیطهای تولید را به طور قابل توجهی با مشکل مواجه میسازد.
Amazon SageMaker AI برای حل این چالشهای حیاتی وارد عمل شده است. با ارائه سفارشیسازی مدل سرورلس، توسعهدهندگان میتوانند LLMها را برای فراخوانی ابزار عاملمحور قوی و بدون سربار عملیاتی معمول، تنظیم دقیق کنند. هسته این نوآوری یادگیری تقویتی با پاداشهای قابل تأیید (RLVR) است، تکنیکی که مدلها را قادر میسازد تا پاسخهای خود را تولید و تأیید کنند و یاد بگیرند که تعاملات موفق با ابزار را ترجیح دهند. این مقاله به بررسی این موضوع میپردازد که چگونه SageMaker AI، با بهرهگیری از RLVR، قابلیت اطمینان عامل را به طور چشمگیری بهبود میبخشد و یک افزایش ۵۷ درصدی در پاداش فراخوانی ابزار در سناریوهای دیده نشده با مدل Qwen 2.5 7B Instruct تنظیمشده را به نمایش میگذارد.
امیدها و خطرات فراخوانی ابزار عاملمحور
مفهوم عوامل هوش مصنوعی که از طریق ابزارها با سیستمهای خارجی تعامل دارند، سنگ بنای کاربردهای پیشرفته هوش مصنوعی است. یک عامل را تصور کنید که میتواند پرواز رزرو کند، اسناد را از یک پایگاه داده خلاصه کند، یا حتی کد را بر اساس یک پرامپت زبان طبیعی اجرا کند. این قابلیت دقیقاً همان چیزی است که فراخوانی ابزار عاملمحور امکانپذیر میسازد. با این حال، مسیر استفاده قابل اعتماد از ابزارها سرشار از چالشها است.
LLMهای پایه، در حالی که در تولید زبان قدرتمند هستند، اغلب فاقد درک ظریف مورد نیاز برای فراخوانی دقیق ابزار هستند. آنها ممکن است ابزاری را که وجود ندارد استنتاج کنند، قصد کاربر را اشتباه تفسیر کرده که منجر به مقادیر پارامتر نادرست میشود، یا نتوانند تشخیص دهند که اطلاعات حیاتی گم شده است. این اشتباهات به تجربههای کاربری ناامیدکننده منجر شده و استقرار در سطح سازمانی را پرخطر میسازد. برای سازمانهایی که به دنبال عملیاتی کردن مؤثر عوامل هوش مصنوعی هستند، اطمینان از اجرای قابل پیشبینی و قابل اعتماد ابزارها از اهمیت بالایی برخوردار است. خطرات زیاد است، زیرا عوامل قابل اعتماد میتوانند سطوح بیسابقهای از اتوماسیون و کارایی را به ارمغان آورند، در حالی که عوامل غیرقابل اعتماد میتوانند منجر به خطاهای پرهزینه و نارضایتی کاربر شوند. به همین دلیل بهینهسازی مدل قوی برای جریانهای کاری عاملمحور ضروری است، وظیفهای که با پلتفرمهایی مانند SageMaker AI سادهتر شده است.
سفارشیسازی مدل سرورلس: مزیت SageMaker AI
رویکرد سنتی برای بهبود عملکرد LLM اغلب شامل مدیریت زیرساختهای قابل توجهی است – از تأمین GPU و هماهنگسازی حافظه تا زیرساخت پاداش پیچیده و چکپوینتگذاری برای یادگیری تقویتی. این وظایف سربار عملیاتی قابل توجهی را ایجاد میکنند که منابع ارزشمند توسعهدهنده را از تمرکز بر مشکل اصلی منحرف میکند: بهبود رفتار مدل.
سفارشیسازی مدل سرورلس Amazon SageMaker AI این بار را از دوش برمیدارد. توسعهدهندگان میتوانند یک مدل بنیادین (به عنوان مثال، Qwen، Llama، GPT-OSS) را انتخاب کنند، یک تکنیک تنظیم دقیق مانند RLVR را پیکربندی کنند، به دادههای خود اشاره کنند و یک تابع پاداش تعریف کنند. سپس SageMaker AI کل فرآیند بکاند را مدیریت میکند، از مقیاسگذاری منابع محاسباتی تا مدیریت فازهای آموزشی و تنظیم هایپرپارامترها. این انتزاع به تیمها اجازه میدهد تا بر کیفیت مجموعه داده و طراحی تابع پاداش تمرکز کنند، که محرکهای واقعی بهبود مدل هستند. برای شرکتها، این رویکرد سرورلس به چرخههای تکرار سریعتر، کاهش هزینهها و مانع ورود کمتر برای سفارشیسازی پیشرفته LLM ترجمه میشود. این یک تغییر دهنده بازی برای کسانی است که به دنبال مقیاسگذاری هوش مصنوعی برای همه هستند، با سادهسازی فرآیندهای پیچیده تنظیم دقیق LLMها.
چرا RLVR برای فراخوانی ابزار عاملمحور عالی عمل میکند
وقتی صحبت از آموزش یک عامل هوش مصنوعی برای استفاده مطمئن از ابزارها میشود، همه تکنیکهای تنظیم دقیق یکسان نیستند. تنظیم دقیق نظارتشده (SFT) به نمونههای با برچسبگذاری دقیق برای هر رفتار ممکن که مدل باید از خود نشان دهد – فراخوانی یک ابزار، درخواست شفافسازی، یا رد یک درخواست – نیاز دارد. چالش SFT، تلاش آن برای تعمیم فرآیند تصمیمگیری بین این رفتارهای متمایز است که اغلب در الگوهای دیده شده در طول آموزش خوب عمل میکند اما در سناریوهای جدید با مشکل مواجه میشود.
یادگیری تقویتی با پاداشهای قابل تأیید (RLVR) یک راهحل پویاتر و مؤثرتر ارائه میدهد. برخلاف SFT، RLVR بر روی یک حلقه بازخورد عمل میکند:
- تولید کاندیداها: برای هر پرامپت، مدل چندین (به عنوان مثال، هشت) پاسخ بالقوه تولید میکند.
- ارزیابی تابع پاداش: یک
تابع پاداشاز پیش تعریف شده هر کاندید را به طور عینی امتیازدهی میکند و کیفیت، درستی و پایبندی آن به رفتار مطلوب را نشان میدهد (به عنوان مثال، آیا ابزار صحیح را با پارامترهای درست فراخوانی کرده است؟). - بهروزرسانی سیاست: با استفاده از بهینهسازی سیاست گروهی نسبی (GRPO)، سیاست مدل برای تقویت پاسخهایی که بالاتر از میانگین گروه تولید شده امتیاز کسب کردهاند، بهروزرسانی میشود. این فرآیند به صورت تکراری مدل را به سمت رفتار بهینه هدایت میکند.
این یادگیری تکراری مدل را قادر میسازد تا نه تنها چگونه یک عمل خاص را انجام دهد، بلکه چه زمانی آن را انجام دهد را درک کند. این مدل تفاوتهای ظریف بین موقعیتهایی که فراخوانی ابزار مناسب است، نیاز به شفافسازی وجود دارد، یا رد کردن بهترین اقدام است را یاد میگیرد. از آنجا که فراخوانی ابزار یک هدف ذاتاً قابل تأیید دارد – اینکه آیا مدل تابع صحیح را با پارامترهای صحیح فراخوانی کرده است – به طور استثنایی با پارادایم RLVR سازگار است و آن را برای عوامل هوش مصنوعی که نیاز به قابلیت اطمینان بالا دارند، ایدهآل میسازد. این روش به طور مؤثر چالش طراحی عوامل برای مقاومت در برابر تزریق پرامپت را با تقویت الگوهای دقیق عمل برطرف میکند.
آمادهسازی دادههای آموزشی با کیفیت بالا برای RLVR
موفقیت هر تلاش برای تنظیم دقیق، به ویژه با RLVR، به کیفیت و جامعیت دادههای آموزشی بستگی دارد. برای فراخوانی ابزار عاملمحور، مجموعه داده باید به مدل بیش از صرفاً فراخوانی صحیح API را آموزش دهد؛ بلکه باید طیف کامل رفتارهای عاملی مورد نیاز را شامل شود.
رویکرد ما شامل تولید ۱۵۰۰ نمونه آموزشی مصنوعی با استفاده از Kiro، IDE مبتنی بر هوش مصنوعی Amazon، بود. این مثالها پنج شمای ابزار متمایز را پوشش میدادند: get_weather_forecast، search_flights، translate_text، currency_convert و get_statistics. نکته مهم این بود که دادهها در سه رفتار اصلی عامل توزیع شدند تا از یادگیری متعادل اطمینان حاصل شود:
| رفتار | توضیحات | درصد | مثال حقیقت مبنا |
|---|---|---|---|
| اجرا (Execute) | کاربر تمام پارامترهای لازم را ارائه میدهد، مدل باید یک ابزار را فراخوانی کند. | ۶۰% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| شفافسازی (Clarify) | درخواست کاربر فاقد پارامترهای لازم است، مدل باید درخواست شفافسازی کند. | ۲۵% | To provide you with the weather information, could you please specify the location? |
| رد (Refuse) | درخواست مضر یا خارج از محدوده است، مدل باید مودبانه آن را رد کند. | ۱۵% | I'm sorry, I cannot fulfill that request. |
هر نمونه آموزشی از فرمت JSONL پیروی میکرد، شامل یک پرامپت (دستورالعمل سیستم و درخواست کاربر) و یک ground_truth در فیلد reward_model که تابع پاداش بر اساس آن امتیازدهی میکند. تغییر عبارات بین رسمی، غیررسمی و مختصر، استحکام مجموعه داده را بیشتر تقویت کرد. در حالی که دادههای مصنوعی یک نقطه شروع عملی را فراهم میکنند، سازمانهایی با جریانهای کاری عاملمحور موجود میتوانند از پرامپتهای واقعی کاربران و فراخوانی ابزارها از لاگهای تولید برای دستیابی به کیفیت آموزش حتی بالاتر استفاده کنند. این آمادهسازی داده گامی حیاتی در مهندسی پرامپت برای رفتارهای پیچیده عامل است.
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get weather for San Francisco"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
تنظیم دقیق Qwen 2.5 7B Instruct با SageMaker AI
فرآیند تنظیم دقیق یک مدل مانند Qwen 2.5 7B Instruct در Amazon SageMaker AI Studio ساده و شهودی است. پس از اطمینان از برآورده شدن پیشنیازهای لازم (حساب AWS، نقش IAM در AWS، دامنه SageMaker AI، باکت S3)، کاربران میتوانند به بخش Models در SageMaker AI Studio بروند.
از آنجا، با انتخاب Qwen 2.5 7B Instruct و انتخاب Customize with UI یک صفحه پیکربندی اختصاصی باز میشود. این رابط کاربری امکانات زیر را فراهم میکند:
- انتخاب تکنیک: انتخاب صریح
یادگیری تقویتی با پاداشهای قابل تأیید (RLVR)از منوی کشویی. - ورودی داده: اشاره به دادههای آموزشی آمادهشده که در یک باکت Amazon S3 ذخیره شدهاند.
- تابع پاداش: پیکربندی مکانیسم امتیازدهی لایهای که نحوه ارزیابی پاسخهای کاندیدا در برابر
ground_truthرا تعریف میکند. - پیکربندی هایپرپارامتر: تنظیم پارامترهایی مانند اندازه دسته (batch size)، اگرچه SageMaker AI اغلب تنظیمات بهینه را به طور خودکار مدیریت میکند.
SageMaker AI از طیف متنوعی از خانوادههای مدل، از جمله Amazon Nova، GPT-OSS، Llama، Qwen و DeepSeek، در کنار تکنیکهای مختلفی مانند تنظیم دقیق نظارتشده (SFT)، بهینهسازی ترجیح مستقیم (DPO)، RLVR و یادگیری تقویتی از بازخورد هوش مصنوعی (RLAIF) پشتیبانی میکند. ردیابی MLflow یکپارچه، دیدی نسبت به معیارهای آموزش و اعتبارسنجی فراهم میکند و نظارت بر عملکرد و تکرار را ساده میسازد. این سهولت استفاده، چرخه توسعه را برای توسعهدهندگانی که github-agentic-workflows پیچیده میسازند، به طور چشمگیری تسریع میکند.
موفقیت در ارزیابی و استقرار
اثربخشی مدل Qwen 2.5 7B Instruct تنظیمشده ما به طور دقیق بر روی دادههای نگه داشته شده، از جمله سناریوهایی با ابزارهای دیده نشده – یک آزمون حیاتی برای تعمیمپذیری – ارزیابی شد. نتایج قانعکننده بود: مدل تنظیمشده به بهبودی ۵۷ درصدی قابل توجه در پاداش فراخوانی ابزار در مقایسه با مدل پایه دست یافت. این جهش قابل توجه در عملکرد در سناریوهایی که مدل در طول آموزش با آنها مواجه نشده بود، قدرت RLVR را در آموزش تواناییهای تصمیمگیری قوی برای تعامل با ابزار به مدلها تأکید میکند.
این قابلیت اطمینان افزایش یافته مستقیماً به اعتماد و اطمینان بالاتر در استقرار عوامل هوش مصنوعی در محیطهای تولید تبدیل میشود. با به حداقل رساندن موارد توهمزایی ابزار، پارامترهای نادرست و اقدامات نامناسب، کسبوکارها میتوانند از عوامل هوش مصنوعی برای کارهای حیاتیتر و حساستر بهره ببرند. با رسیدگی SageMaker AI به پیچیدگیهای استقرار مدل و مدیریت زیرساخت، توسعهدهندگان میتوانند به راحتی از تنظیم دقیق به تولید حرکت کنند و پتانسیل کامل راهحلهای هوش مصنوعی عاملمحور خود را محقق سازند. این قابلیت با چشمانداز گستردهتر عملیاتی کردن هوش مصنوعی عاملمحور برای تأثیرگذاری در دنیای واقعی همسو است.
به طور خلاصه، ترکیب سفارشیسازی مدل سرورلس Amazon SageMaker AI و قابلیتهای یادگیری قوی RLVR مسیری قدرتمند برای ساخت سیستمهای فراخوانی ابزار عاملمحور بسیار قابل اعتماد فراهم میکند. این رویکرد نوآورانه توسعه را تسریع میکند، بار عملیاتی را کاهش میدهد و در نهایت عوامل هوش مصنوعی را ارائه میدهد که با دقت و قابلیت اطمینان بیسابقهای عمل میکنند.
سوالات متداول
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
بهروز بمانید
آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.
