SageMaker AI: تسريع استدعاء الأدوات الوكيلية بتخصيص خادم بلا خوادم

لقد أحدث الذكاء الاصطناعي الوكيلي (Agentic AI) ثورة في طريقة تفكيرنا في المهام المؤتمتة، مما يمكّن الأنظمة من اتخاذ القرارات والتفاعل مع العالم من خلال أدوات متخصصة. ومع ذلك، فإن الفائدة الحقيقية لوكلاء الذكاء الاصطناعي في الإنتاج تعتمد على قدرتهم على أداء استدعاء الأدوات الوكيلية بشكل موثوق. هذه هي الطريقة التي يستعلم بها الوكلاء عن قواعد البيانات، ويقومون بتشغيل سير عمل معقدة، ويسترجعون البيانات في الوقت الفعلي، ويتصرفون بحسم نيابةً عن المستخدم. لسوء الحظ، كان هناك عقبة شائعة أمام التبني الواسع وهي ميل نماذج اللغة الكبيرة الأساسية (LLMs) إلى هلوسة أدوات، أو تمرير معلمات غير صحيحة، أو محاولة القيام بإجراءات عندما تكون هناك حاجة إلى توضيح. مثل هذه الإخفاقات تقوض الثقة وتعيق بشكل كبير النشر في الإنتاج.

تتجه Amazon SageMaker AI لحل هذه التحديات الحرجة. من خلال تقديم تخصيص النموذج بلا خوادم، يمكن للمطورين ضبط نماذج اللغة الكبيرة (LLMs) لاستدعاء أدوات وكيلية قوية دون الأعباء التشغيلية النموذجية. يقع في صميم هذا الابتكار التعلم المعزز بالمكافآت القابلة للتحقق (RLVR)، وهي تقنية تمكّن النماذج من توليد استجاباتها والتحقق منها، متعلمةً تفضيل التفاعلات الناجحة للأدوات. يتعمق هذا المنشور في كيفية تحسين SageMaker AI، باستخدام RLVR، بشكل كبير من موثوقية الوكيل، حيث يعرض تحسنًا بنسبة 57% في مكافأة استدعاء الأداة في سيناريوهات غير مرئية باستخدام نموذج Qwen 2.5 7B Instruct المضبوط بدقة.

وعود ومخاطر استدعاء الأدوات الوكيلية

يُعد مفهوم وكلاء الذكاء الاصطناعي الذين يتفاعلون مع الأنظمة الخارجية عبر الأدوات حجر الزاوية في تطبيقات الذكاء الاصطناعي المتقدمة. تخيل وكيلًا يمكنه حجز الرحلات، أو تلخيص المستندات من قاعدة بيانات، أو حتى تنفيذ التعليمات البرمجية بناءً على مطالبة باللغة الطبيعية. هذه الوظيفة هي بالضبط ما يمكّنه استدعاء الأدوات الوكيلية. ومع ذلك، فإن الطريق إلى استخدام موثوق للأدوات محفوف بالتحديات.

نماذج اللغة الكبيرة الأساسية (LLMs)، على الرغم من قوتها في توليد اللغة، غالبًا ما تفتقر إلى الفهم الدقيق المطلوب لاستدعاء الأدوات بدقة. قد تستنتج أداة غير موجودة، أو تسيء تفسير نية المستخدم مما يؤدي إلى قيم معلمات غير صحيحة، أو تفشل في التعرف على متى تكون المعلومات الحرجة مفقودة. تؤدي هذه الأخطاء إلى تجارب مستخدم محبطة وتجعل النشر على مستوى المؤسسات محفوفًا بالمخاطر. بالنسبة للمؤسسات التي تتطلع إلى تشغيل وكلاء الذكاء الاصطناعي بفعالية، فإن ضمان تنفيذ أداة يمكن التنبؤ بها وجديرة بالثقة أمر بالغ الأهمية. المخاطر عالية، حيث يمكن للوكلاء الموثوقين أن يفتحوا مستويات غير مسبوقة من الأتمتة والكفاءة، بينما يمكن أن يؤدي الوكلاء غير الموثوقين إلى أخطاء مكلفة وعدم رضا المستخدم. لهذا السبب، يعد تحسين النموذج القوي لسير عمل الوكلاء أمرًا ضروريًا، وهي مهمة أصبحت أبسط مع منصات مثل SageMaker AI.

تخصيص النموذج بلا خوادم: ميزة SageMaker AI

يتضمن النهج التقليدي لتحسين أداء LLM غالبًا إدارة بنية تحتية كبيرة – من شراء وحدات معالجة الرسومات وتنظيم الذاكرة إلى بنية تحتية معقدة للمكافآت ونقاط التفتيش للتعلم المعزز. تضيف هذه المهام عبئًا تشغيليًا كبيرًا، مما يحول موارد المطورين الثمينة عن التركيز على المشكلة الأساسية: تحسين سلوك النموذج.

يزيل تخصيص النموذج بلا خوادم في Amazon SageMaker AI هذا العبء. يمكن للمطورين اختيار نموذج أساسي (مثل Qwen، Llama، GPT-OSS)، وتكوين تقنية ضبط دقيق مثل RLVR، وتوجيهها إلى بياناتهم، وتحديد دالة مكافأة. يتعامل SageMaker AI بعد ذلك مع عملية الواجهة الخلفية بأكملها، من توسيع نطاق موارد الحوسبة إلى إدارة مراحل التدريب وضبط المعلمات الفائقة. يسمح هذا التجريد للفرق بالتركيز على جودة مجموعة البيانات وتصميم دالة المكافأة، وهما المحركان الحقيقيان لتحسين النموذج. بالنسبة للمؤسسات، يترجم هذا النهج بلا خوادم إلى دورات تكرارية أسرع، وتكاليف مخفضة، وحاجز دخول أقل لتخصيص LLM المتقدم. إنه يغير قواعد اللعبة لأولئك الذين يتطلعون إلى توسيع نطاق الذكاء الاصطناعي للجميع عن طريق تبسيط عمليات الضبط الدقيق لنماذج اللغة الكبيرة (LLMs) المعقدة.

لماذا يتفوق RLVR في استدعاء الأدوات الوكيلية

عندما يتعلق الأمر بتعليم وكيل ذكاء اصطناعي استخدام الأدوات بشكل موثوق، فإن تقنيات الضبط الدقيق ليست متساوية. يتطلب الضبط الدقيق الخاضع للإشراف (SFT) أمثلة مصنفة بدقة لكل سلوك محتمل يجب أن يظهره النموذج – استدعاء أداة، أو طلب توضيح، أو رفض طلب. يكمن التحدي مع SFT في صعوبته في تعميم عملية اتخاذ القرار بين هذه السلوكيات المتميزة، وغالبًا ما يؤدي أداءً جيدًا على الأنماط التي شوهدت أثناء التدريب ولكنه يتعثر في السيناريوهات الجديدة.

يقدم التعلم المعزز بالمكافآت القابلة للتحقق (RLVR) حلاً أكثر ديناميكية وفعالية. على عكس SFT، يعمل RLVR على حلقة تغذية راجعة:

توليد المرشحات: لكل مطالبة، يولد النموذج استجابات محتملة متعددة (مثل ثمانية).
تقييم دالة المكافأة: تقوم دالة مكافأة محددة مسبقًا بتسجيل كل مرشح بشكل موضوعي، مما يشير إلى جودته وصحته والتزامه بالسلوك المطلوب (على سبيل المثال، هل استدعى الأداة الصحيحة بالمعلمات الصحيحة؟).
تحديث السياسة: باستخدام تحسين السياسة النسبية للمجموعات (GRPO)، يتم تحديث سياسة النموذج لتعزيز الاستجابات التي سجلت أعلى من متوسط المجموعة المولدة. توجه هذه العملية النموذج بشكل متكرر نحو سلوك أكثر أمثلية.

يتيح هذا التعلم التكراري للنموذج فهم ليس فقط كيفية أداء إجراء معين، ولكن متى يجب أداؤه. يتعلم الفروق الدقيقة في التمييز بين المواقف التي يكون فيها استدعاء الأداة مناسبًا، أو عندما تكون هناك حاجة إلى توضيح، أو عندما يكون الرفض هو أفضل مسار للعمل. ولأن استدعاء الأدوات له هدف قابل للتحقق بشكل طبيعي – سواء استدعى النموذج الوظيفة الصحيحة بالمعلمات الصحيحة – فإنه يتوافق بشكل استثنائي مع نموذج RLVR، مما يجعله مثاليًا لوكلاء الذكاء الاصطناعي الذين يتطلبون موثوقية عالية. تعالج هذه الطريقة بفعالية تحدي تصميم الوكلاء لمقاومة حقن المطالبات من خلال تعزيز أنماط العمل الدقيقة.

إعداد بيانات تدريب عالية الجودة لـ RLVR

يعتمد نجاح أي جهد للضبط الدقيق، خاصةً مع RLVR، على جودة وشمولية بيانات التدريب. لاستدعاء الأدوات الوكيلية، يجب أن تُعلم مجموعة البيانات النموذج أكثر من مجرد استدعاءات API الصحيحة؛ بل يجب أن تشمل الطيف الكامل لسلوكيات الوكيل المطلوبة.

تضمنت طريقتنا توليد 1500 مثال تدريب اصطناعي باستخدام Kiro، وهو بيئة تطوير متكاملة مدعومة بالذكاء الاصطناعي من Amazon. غطت هذه الأمثلة خمسة مخططات أدوات متميزة: get_weather_forecast، search_flights، translate_text، currency_convert، و get_statistics. الأهم من ذلك، تم توزيع البيانات عبر ثلاثة سلوكيات وكيل أساسية لضمان تعلم متوازن:

السلوك	الوصف	النسبة المئوية	مثال للواقع الأساسي
Execute	يقدم المستخدم جميع المعلمات الضرورية، ويجب على النموذج استدعاء أداة.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Clarify	يفتقر طلب المستخدم إلى المعلمات المطلوبة، ويجب على النموذج طلب توضيح.	25%	`To provide you with the weather information, could you please specify the location?`
Refuse	الطلب ضار أو خارج النطاق، ويجب على النموذج الرفض بأدب.	15%	`I'm sorry, I cannot fulfill that request.`

اتبع كل مثال تدريب تنسيق JSONL، بما في ذلك مطالبة (تعليمات النظام وطلب المستخدم) وground_truth في حقل reward_model الذي تقوم دالة المكافأة بتسجيل النقاط مقابله. أدى تنوع الصياغة بين الرسمية وغير الرسمية والمقتضبة إلى تعزيز متانة مجموعة البيانات. بينما توفر البيانات الاصطناعية نقطة انطلاق عملية، يمكن للمؤسسات التي لديها سير عمل وكلاء حالية الاستفادة من مطالبات المستخدم الحقيقية واستدعاءات الأدوات من سجلات الإنتاج لتحقيق تدريب عالي الجودة بشكل أكبر. يعد إعداد البيانات هذا خطوة حاسمة في هندسة المطالبات لسلوكيات الوكيل المعقدة.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

الضبط الدقيق لـ Qwen 2.5 7B Instruct باستخدام SageMaker AI

تُعد عملية الضبط الدقيق لنموذج مثل Qwen 2.5 7B Instruct داخل Amazon SageMaker AI Studio مبسطة وبديهية. بعد التأكد من تلبية المتطلبات الأساسية (حساب AWS، دور IAM، نطاق SageMaker AI، مخزن S3)، يمكن للمستخدمين الانتقال إلى قسم النماذج في SageMaker AI Studio.

من هناك، يؤدي تحديد Qwen 2.5 7B Instruct واختيار التخصيص باستخدام واجهة المستخدم إلى فتح صفحة تكوين مخصصة. تسمح هذه الواجهة بما يلي:

اختيار التقنية: اختيار صريح لـ التعلم المعزز بالمكافآت القابلة للتحقق (RLVR) من القائمة المنسدلة.
إدخال البيانات: الإشارة إلى بيانات التدريب المعدة والمخزنة في مخزن Amazon S3.
دالة المكافأة: تكوين آلية تسجيل النقاط المتدرجة التي تحدد كيفية تقييم الاستجابات المرشحة مقابل ground_truth.
تكوين المعلمات الفائقة: ضبط المعلمات مثل حجم الدفعة، على الرغم من أن SageMaker AI غالبًا ما يتعامل مع الإعدادات المثلى تلقائيًا.

يدعم SageMaker AI مجموعة متنوعة من عائلات النماذج، بما في ذلك Amazon Nova، GPT-OSS، Llama، Qwen، و DeepSeek، إلى جانب تقنيات مختلفة مثل الضبط الدقيق الخاضع للإشراف (SFT)، تحسين التفضيل المباشر (DPO)، RLVR، والتعلم المعزز من ملاحظات الذكاء الاصطناعي (RLAIF). يوفر تتبع MLflow المدمج رؤية لمقاييس التدريب والتحقق، مما يبسط مراقبة الأداء والتكرار. تسرع سهولة الاستخدام هذه بشكل كبير دورة حياة التطوير للمطورين الذين يبنون سير عمل GitHub الوكيلية المتطورة.

نجاح التقييم والنشر

تم تقييم فعالية نموذج Qwen 2.5 7B Instruct الذي تم ضبطه بدقة بشكل صارم على بيانات محتجزة، بما في ذلك سيناريوهات تتضمن أدوات غير مرئية تمامًا – وهو اختبار حاسم للتعميم. كانت النتائج مقنعة: حقق النموذج المضبوط تحسنًا ملحوظًا بنسبة 57% في مكافأة استدعاء الأداة مقارنة بالنموذج الأساسي. يؤكد هذا التقدم الكبير في الأداء على سيناريوهات لم يصادفها أثناء التدريب على قوة RLVR في تعليم النماذج قدرات قوية على اتخاذ القرار للتفاعل مع الأدوات.

تترجم هذه الموثوقية المحسنة مباشرة إلى ثقة أكبر في نشر وكلاء الذكاء الاصطناعي في بيئات الإنتاج. من خلال تقليل حالات هلوسة الأدوات، والمعلمات غير الصحيحة، والإجراءات غير المناسبة، يمكن للشركات الاستفادة من وكلاء الذكاء الاصطناعي للمهام الأكثر حساسية وحرجًا. مع SageMaker AI الذي يتعامل مع تعقيدات نشر النموذج وإدارة البنية التحتية، يمكن للمطورين الانتقال بسلاسة من الضبط الدقيق إلى الإنتاج، وتحقيق الإمكانات الكاملة لحلولهم الوكيلية للذكاء الاصطناعي. تتوافق هذه القدرة مع الرؤية الأوسع لـ تشغيل الذكاء الاصطناعي الوكيلي لتحقيق تأثير في العالم الحقيقي.

باختصار، يوفر الجمع بين تخصيص النموذج بلا خوادم في Amazon SageMaker AI وقدرات التعلم القوية لـ RLVR مسارًا قويًا لبناء أنظمة استدعاء أدوات وكيلية عالية الموثوقية. يسرع هذا النهج المبتكر التطوير، ويقلل العبء التشغيلي، ويقدم في النهاية وكلاء ذكاء اصطناعي يعملون بدقة وموثوقية غير مسبوقة.

المصدر الأصلي

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

الأسئلة الشائعة

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

ابقَ على اطلاع

احصل على آخر أخبار الذكاء الاصطناعي في بريدك.