SageMaker AI: تسریع فراخوانی ابزار عامل‌محور با سفارشی‌سازی سرورلس

هوش مصنوعی عامل‌محور (Agentic AI) شیوه تفکر ما را در مورد وظایف خودکار متحول کرده و سیستم‌ها را قادر می‌سازد تا از طریق ابزارهای تخصصی تصمیم‌گیری کرده و با جهان تعامل داشته باشند. با این حال، کارایی واقعی عوامل هوش مصنوعی در تولید، منوط به توانایی آن‌ها در انجام مطمئن فراخوانی ابزار عامل‌محور است. این همان روشی است که عوامل پایگاه‌های داده را پرس‌وجو می‌کنند، جریان‌های کاری پیچیده را فعال می‌سازند، داده‌های بلادرنگ را بازیابی می‌کنند و از طرف کاربر قاطعانه عمل می‌کنند. متأسفانه، یک مانع رایج در مسیر پذیرش گسترده، تمایل مدل‌های زبان بزرگ پایه (LLM) به توهم‌زایی ابزارها، ارسال پارامترهای نادرست، یا اقدام به عملیات در مواقعی که نیاز به شفاف‌سازی است، بوده است. چنین شکست‌هایی اعتماد را از بین می‌برد و استقرار در محیط‌های تولید را به طور قابل توجهی با مشکل مواجه می‌سازد.

Amazon SageMaker AI برای حل این چالش‌های حیاتی وارد عمل شده است. با ارائه سفارشی‌سازی مدل سرورلس، توسعه‌دهندگان می‌توانند LLM‌ها را برای فراخوانی ابزار عامل‌محور قوی و بدون سربار عملیاتی معمول، تنظیم دقیق کنند. هسته این نوآوری یادگیری تقویتی با پاداش‌های قابل تأیید (RLVR) است، تکنیکی که مدل‌ها را قادر می‌سازد تا پاسخ‌های خود را تولید و تأیید کنند و یاد بگیرند که تعاملات موفق با ابزار را ترجیح دهند. این مقاله به بررسی این موضوع می‌پردازد که چگونه SageMaker AI، با بهره‌گیری از RLVR، قابلیت اطمینان عامل را به طور چشمگیری بهبود می‌بخشد و یک افزایش ۵۷ درصدی در پاداش فراخوانی ابزار در سناریوهای دیده نشده با مدل Qwen 2.5 7B Instruct تنظیم‌شده را به نمایش می‌گذارد.

امیدها و خطرات فراخوانی ابزار عامل‌محور

مفهوم عوامل هوش مصنوعی که از طریق ابزارها با سیستم‌های خارجی تعامل دارند، سنگ بنای کاربردهای پیشرفته هوش مصنوعی است. یک عامل را تصور کنید که می‌تواند پرواز رزرو کند، اسناد را از یک پایگاه داده خلاصه کند، یا حتی کد را بر اساس یک پرامپت زبان طبیعی اجرا کند. این قابلیت دقیقاً همان چیزی است که فراخوانی ابزار عامل‌محور امکان‌پذیر می‌سازد. با این حال، مسیر استفاده قابل اعتماد از ابزارها سرشار از چالش‌ها است.

LLM‌های پایه، در حالی که در تولید زبان قدرتمند هستند، اغلب فاقد درک ظریف مورد نیاز برای فراخوانی دقیق ابزار هستند. آن‌ها ممکن است ابزاری را که وجود ندارد استنتاج کنند، قصد کاربر را اشتباه تفسیر کرده که منجر به مقادیر پارامتر نادرست می‌شود، یا نتوانند تشخیص دهند که اطلاعات حیاتی گم شده است. این اشتباهات به تجربه‌های کاربری ناامیدکننده منجر شده و استقرار در سطح سازمانی را پرخطر می‌سازد. برای سازمان‌هایی که به دنبال عملیاتی کردن مؤثر عوامل هوش مصنوعی هستند، اطمینان از اجرای قابل پیش‌بینی و قابل اعتماد ابزارها از اهمیت بالایی برخوردار است. خطرات زیاد است، زیرا عوامل قابل اعتماد می‌توانند سطوح بی‌سابقه‌ای از اتوماسیون و کارایی را به ارمغان آورند، در حالی که عوامل غیرقابل اعتماد می‌توانند منجر به خطاهای پرهزینه و نارضایتی کاربر شوند. به همین دلیل بهینه‌سازی مدل قوی برای جریان‌های کاری عامل‌محور ضروری است، وظیفه‌ای که با پلتفرم‌هایی مانند SageMaker AI ساده‌تر شده است.

سفارشی‌سازی مدل سرورلس: مزیت SageMaker AI

رویکرد سنتی برای بهبود عملکرد LLM اغلب شامل مدیریت زیرساخت‌های قابل توجهی است – از تأمین GPU و هماهنگ‌سازی حافظه تا زیرساخت پاداش پیچیده و چک‌پوینت‌گذاری برای یادگیری تقویتی. این وظایف سربار عملیاتی قابل توجهی را ایجاد می‌کنند که منابع ارزشمند توسعه‌دهنده را از تمرکز بر مشکل اصلی منحرف می‌کند: بهبود رفتار مدل.

سفارشی‌سازی مدل سرورلس Amazon SageMaker AI این بار را از دوش برمی‌دارد. توسعه‌دهندگان می‌توانند یک مدل بنیادین (به عنوان مثال، Qwen، Llama، GPT-OSS) را انتخاب کنند، یک تکنیک تنظیم دقیق مانند RLVR را پیکربندی کنند، به داده‌های خود اشاره کنند و یک تابع پاداش تعریف کنند. سپس SageMaker AI کل فرآیند بک‌اند را مدیریت می‌کند، از مقیاس‌گذاری منابع محاسباتی تا مدیریت فازهای آموزشی و تنظیم هایپرپارامترها. این انتزاع به تیم‌ها اجازه می‌دهد تا بر کیفیت مجموعه داده و طراحی تابع پاداش تمرکز کنند، که محرک‌های واقعی بهبود مدل هستند. برای شرکت‌ها، این رویکرد سرورلس به چرخه‌های تکرار سریع‌تر، کاهش هزینه‌ها و مانع ورود کمتر برای سفارشی‌سازی پیشرفته LLM ترجمه می‌شود. این یک تغییر دهنده بازی برای کسانی است که به دنبال مقیاس‌گذاری هوش مصنوعی برای همه هستند، با ساده‌سازی فرآیندهای پیچیده تنظیم دقیق LLM‌ها.

چرا RLVR برای فراخوانی ابزار عامل‌محور عالی عمل می‌کند

وقتی صحبت از آموزش یک عامل هوش مصنوعی برای استفاده مطمئن از ابزارها می‌شود، همه تکنیک‌های تنظیم دقیق یکسان نیستند. تنظیم دقیق نظارت‌شده (SFT) به نمونه‌های با برچسب‌گذاری دقیق برای هر رفتار ممکن که مدل باید از خود نشان دهد – فراخوانی یک ابزار، درخواست شفاف‌سازی، یا رد یک درخواست – نیاز دارد. چالش SFT، تلاش آن برای تعمیم فرآیند تصمیم‌گیری بین این رفتارهای متمایز است که اغلب در الگوهای دیده شده در طول آموزش خوب عمل می‌کند اما در سناریوهای جدید با مشکل مواجه می‌شود.

یادگیری تقویتی با پاداش‌های قابل تأیید (RLVR) یک راه‌حل پویاتر و مؤثرتر ارائه می‌دهد. برخلاف SFT، RLVR بر روی یک حلقه بازخورد عمل می‌کند:

تولید کاندیداها: برای هر پرامپت، مدل چندین (به عنوان مثال، هشت) پاسخ بالقوه تولید می‌کند.
ارزیابی تابع پاداش: یک تابع پاداش از پیش تعریف شده هر کاندید را به طور عینی امتیازدهی می‌کند و کیفیت، درستی و پایبندی آن به رفتار مطلوب را نشان می‌دهد (به عنوان مثال، آیا ابزار صحیح را با پارامترهای درست فراخوانی کرده است؟).
به‌روزرسانی سیاست: با استفاده از بهینه‌سازی سیاست گروهی نسبی (GRPO)، سیاست مدل برای تقویت پاسخ‌هایی که بالاتر از میانگین گروه تولید شده امتیاز کسب کرده‌اند، به‌روزرسانی می‌شود. این فرآیند به صورت تکراری مدل را به سمت رفتار بهینه هدایت می‌کند.

این یادگیری تکراری مدل را قادر می‌سازد تا نه تنها چگونه یک عمل خاص را انجام دهد، بلکه چه زمانی آن را انجام دهد را درک کند. این مدل تفاوت‌های ظریف بین موقعیت‌هایی که فراخوانی ابزار مناسب است، نیاز به شفاف‌سازی وجود دارد، یا رد کردن بهترین اقدام است را یاد می‌گیرد. از آنجا که فراخوانی ابزار یک هدف ذاتاً قابل تأیید دارد – اینکه آیا مدل تابع صحیح را با پارامترهای صحیح فراخوانی کرده است – به طور استثنایی با پارادایم RLVR سازگار است و آن را برای عوامل هوش مصنوعی که نیاز به قابلیت اطمینان بالا دارند، ایده‌آل می‌سازد. این روش به طور مؤثر چالش طراحی عوامل برای مقاومت در برابر تزریق پرامپت را با تقویت الگوهای دقیق عمل برطرف می‌کند.

آماده‌سازی داده‌های آموزشی با کیفیت بالا برای RLVR

موفقیت هر تلاش برای تنظیم دقیق، به ویژه با RLVR، به کیفیت و جامعیت داده‌های آموزشی بستگی دارد. برای فراخوانی ابزار عامل‌محور، مجموعه داده باید به مدل بیش از صرفاً فراخوانی صحیح API را آموزش دهد؛ بلکه باید طیف کامل رفتارهای عاملی مورد نیاز را شامل شود.

رویکرد ما شامل تولید ۱۵۰۰ نمونه آموزشی مصنوعی با استفاده از Kiro، IDE مبتنی بر هوش مصنوعی Amazon، بود. این مثال‌ها پنج شمای ابزار متمایز را پوشش می‌دادند: get_weather_forecast، search_flights، translate_text، currency_convert و get_statistics. نکته مهم این بود که داده‌ها در سه رفتار اصلی عامل توزیع شدند تا از یادگیری متعادل اطمینان حاصل شود:

رفتار	توضیحات	درصد	مثال حقیقت مبنا
اجرا (Execute)	کاربر تمام پارامترهای لازم را ارائه می‌دهد، مدل باید یک ابزار را فراخوانی کند.	۶۰%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
شفاف‌سازی (Clarify)	درخواست کاربر فاقد پارامترهای لازم است، مدل باید درخواست شفاف‌سازی کند.	۲۵%	`To provide you with the weather information, could you please specify the location?`
رد (Refuse)	درخواست مضر یا خارج از محدوده است، مدل باید مودبانه آن را رد کند.	۱۵%	`I'm sorry, I cannot fulfill that request.`

هر نمونه آموزشی از فرمت JSONL پیروی می‌کرد، شامل یک پرامپت (دستورالعمل سیستم و درخواست کاربر) و یک ground_truth در فیلد reward_model که تابع پاداش بر اساس آن امتیازدهی می‌کند. تغییر عبارات بین رسمی، غیررسمی و مختصر، استحکام مجموعه داده را بیشتر تقویت کرد. در حالی که داده‌های مصنوعی یک نقطه شروع عملی را فراهم می‌کنند، سازمان‌هایی با جریان‌های کاری عامل‌محور موجود می‌توانند از پرامپت‌های واقعی کاربران و فراخوانی ابزارها از لاگ‌های تولید برای دستیابی به کیفیت آموزش حتی بالاتر استفاده کنند. این آماده‌سازی داده گامی حیاتی در مهندسی پرامپت برای رفتارهای پیچیده عامل است.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

تنظیم دقیق Qwen 2.5 7B Instruct با SageMaker AI

فرآیند تنظیم دقیق یک مدل مانند Qwen 2.5 7B Instruct در Amazon SageMaker AI Studio ساده و شهودی است. پس از اطمینان از برآورده شدن پیش‌نیازهای لازم (حساب AWS، نقش IAM در AWS، دامنه SageMaker AI، باکت S3)، کاربران می‌توانند به بخش Models در SageMaker AI Studio بروند.

از آنجا، با انتخاب Qwen 2.5 7B Instruct و انتخاب Customize with UI یک صفحه پیکربندی اختصاصی باز می‌شود. این رابط کاربری امکانات زیر را فراهم می‌کند:

انتخاب تکنیک: انتخاب صریح یادگیری تقویتی با پاداش‌های قابل تأیید (RLVR) از منوی کشویی.
ورودی داده: اشاره به داده‌های آموزشی آماده‌شده که در یک باکت Amazon S3 ذخیره شده‌اند.
تابع پاداش: پیکربندی مکانیسم امتیازدهی لایه‌ای که نحوه ارزیابی پاسخ‌های کاندیدا در برابر ground_truth را تعریف می‌کند.
پیکربندی هایپرپارامتر: تنظیم پارامترهایی مانند اندازه دسته (batch size)، اگرچه SageMaker AI اغلب تنظیمات بهینه را به طور خودکار مدیریت می‌کند.

SageMaker AI از طیف متنوعی از خانواده‌های مدل، از جمله Amazon Nova، GPT-OSS، Llama، Qwen و DeepSeek، در کنار تکنیک‌های مختلفی مانند تنظیم دقیق نظارت‌شده (SFT)، بهینه‌سازی ترجیح مستقیم (DPO)، RLVR و یادگیری تقویتی از بازخورد هوش مصنوعی (RLAIF) پشتیبانی می‌کند. ردیابی MLflow یکپارچه، دیدی نسبت به معیارهای آموزش و اعتبارسنجی فراهم می‌کند و نظارت بر عملکرد و تکرار را ساده می‌سازد. این سهولت استفاده، چرخه توسعه را برای توسعه‌دهندگانی که github-agentic-workflows پیچیده می‌سازند، به طور چشمگیری تسریع می‌کند.

موفقیت در ارزیابی و استقرار

اثربخشی مدل Qwen 2.5 7B Instruct تنظیم‌شده ما به طور دقیق بر روی داده‌های نگه داشته شده، از جمله سناریوهایی با ابزارهای دیده نشده – یک آزمون حیاتی برای تعمیم‌پذیری – ارزیابی شد. نتایج قانع‌کننده بود: مدل تنظیم‌شده به بهبودی ۵۷ درصدی قابل توجه در پاداش فراخوانی ابزار در مقایسه با مدل پایه دست یافت. این جهش قابل توجه در عملکرد در سناریوهایی که مدل در طول آموزش با آن‌ها مواجه نشده بود، قدرت RLVR را در آموزش توانایی‌های تصمیم‌گیری قوی برای تعامل با ابزار به مدل‌ها تأکید می‌کند.

این قابلیت اطمینان افزایش یافته مستقیماً به اعتماد و اطمینان بالاتر در استقرار عوامل هوش مصنوعی در محیط‌های تولید تبدیل می‌شود. با به حداقل رساندن موارد توهم‌زایی ابزار، پارامترهای نادرست و اقدامات نامناسب، کسب‌وکارها می‌توانند از عوامل هوش مصنوعی برای کارهای حیاتی‌تر و حساس‌تر بهره ببرند. با رسیدگی SageMaker AI به پیچیدگی‌های استقرار مدل و مدیریت زیرساخت، توسعه‌دهندگان می‌توانند به راحتی از تنظیم دقیق به تولید حرکت کنند و پتانسیل کامل راه‌حل‌های هوش مصنوعی عامل‌محور خود را محقق سازند. این قابلیت با چشم‌انداز گسترده‌تر عملیاتی کردن هوش مصنوعی عامل‌محور برای تأثیرگذاری در دنیای واقعی همسو است.

به طور خلاصه، ترکیب سفارشی‌سازی مدل سرورلس Amazon SageMaker AI و قابلیت‌های یادگیری قوی RLVR مسیری قدرتمند برای ساخت سیستم‌های فراخوانی ابزار عامل‌محور بسیار قابل اعتماد فراهم می‌کند. این رویکرد نوآورانه توسعه را تسریع می‌کند، بار عملیاتی را کاهش می‌دهد و در نهایت عوامل هوش مصنوعی را ارائه می‌دهد که با دقت و قابلیت اطمینان بی‌سابقه‌ای عمل می‌کنند.

منبع اصلی

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

سوالات متداول

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

به‌روز بمانید

آخرین اخبار هوش مصنوعی را در ایمیل خود دریافت کنید.

اشتراک‌گذاری