SageMaker AI: تسريع استدعاء الأدوات الوكيلية بتخصيص خادم بلا خوادم
لقد أحدث الذكاء الاصطناعي الوكيلي (Agentic AI) ثورة في طريقة تفكيرنا في المهام المؤتمتة، مما يمكّن الأنظمة من اتخاذ القرارات والتفاعل مع العالم من خلال أدوات متخصصة. ومع ذلك، فإن الفائدة الحقيقية لوكلاء الذكاء الاصطناعي في الإنتاج تعتمد على قدرتهم على أداء استدعاء الأدوات الوكيلية بشكل موثوق. هذه هي الطريقة التي يستعلم بها الوكلاء عن قواعد البيانات، ويقومون بتشغيل سير عمل معقدة، ويسترجعون البيانات في الوقت الفعلي، ويتصرفون بحسم نيابةً عن المستخدم. لسوء الحظ، كان هناك عقبة شائعة أمام التبني الواسع وهي ميل نماذج اللغة الكبيرة الأساسية (LLMs) إلى هلوسة أدوات، أو تمرير معلمات غير صحيحة، أو محاولة القيام بإجراءات عندما تكون هناك حاجة إلى توضيح. مثل هذه الإخفاقات تقوض الثقة وتعيق بشكل كبير النشر في الإنتاج.
تتجه Amazon SageMaker AI لحل هذه التحديات الحرجة. من خلال تقديم تخصيص النموذج بلا خوادم، يمكن للمطورين ضبط نماذج اللغة الكبيرة (LLMs) لاستدعاء أدوات وكيلية قوية دون الأعباء التشغيلية النموذجية. يقع في صميم هذا الابتكار التعلم المعزز بالمكافآت القابلة للتحقق (RLVR)، وهي تقنية تمكّن النماذج من توليد استجاباتها والتحقق منها، متعلمةً تفضيل التفاعلات الناجحة للأدوات. يتعمق هذا المنشور في كيفية تحسين SageMaker AI، باستخدام RLVR، بشكل كبير من موثوقية الوكيل، حيث يعرض تحسنًا بنسبة 57% في مكافأة استدعاء الأداة في سيناريوهات غير مرئية باستخدام نموذج Qwen 2.5 7B Instruct المضبوط بدقة.
وعود ومخاطر استدعاء الأدوات الوكيلية
يُعد مفهوم وكلاء الذكاء الاصطناعي الذين يتفاعلون مع الأنظمة الخارجية عبر الأدوات حجر الزاوية في تطبيقات الذكاء الاصطناعي المتقدمة. تخيل وكيلًا يمكنه حجز الرحلات، أو تلخيص المستندات من قاعدة بيانات، أو حتى تنفيذ التعليمات البرمجية بناءً على مطالبة باللغة الطبيعية. هذه الوظيفة هي بالضبط ما يمكّنه استدعاء الأدوات الوكيلية. ومع ذلك، فإن الطريق إلى استخدام موثوق للأدوات محفوف بالتحديات.
نماذج اللغة الكبيرة الأساسية (LLMs)، على الرغم من قوتها في توليد اللغة، غالبًا ما تفتقر إلى الفهم الدقيق المطلوب لاستدعاء الأدوات بدقة. قد تستنتج أداة غير موجودة، أو تسيء تفسير نية المستخدم مما يؤدي إلى قيم معلمات غير صحيحة، أو تفشل في التعرف على متى تكون المعلومات الحرجة مفقودة. تؤدي هذه الأخطاء إلى تجارب مستخدم محبطة وتجعل النشر على مستوى المؤسسات محفوفًا بالمخاطر. بالنسبة للمؤسسات التي تتطلع إلى تشغيل وكلاء الذكاء الاصطناعي بفعالية، فإن ضمان تنفيذ أداة يمكن التنبؤ بها وجديرة بالثقة أمر بالغ الأهمية. المخاطر عالية، حيث يمكن للوكلاء الموثوقين أن يفتحوا مستويات غير مسبوقة من الأتمتة والكفاءة، بينما يمكن أن يؤدي الوكلاء غير الموثوقين إلى أخطاء مكلفة وعدم رضا المستخدم. لهذا السبب، يعد تحسين النموذج القوي لسير عمل الوكلاء أمرًا ضروريًا، وهي مهمة أصبحت أبسط مع منصات مثل SageMaker AI.
تخصيص النموذج بلا خوادم: ميزة SageMaker AI
يتضمن النهج التقليدي لتحسين أداء LLM غالبًا إدارة بنية تحتية كبيرة – من شراء وحدات معالجة الرسومات وتنظيم الذاكرة إلى بنية تحتية معقدة للمكافآت ونقاط التفتيش للتعلم المعزز. تضيف هذه المهام عبئًا تشغيليًا كبيرًا، مما يحول موارد المطورين الثمينة عن التركيز على المشكلة الأساسية: تحسين سلوك النموذج.
يزيل تخصيص النموذج بلا خوادم في Amazon SageMaker AI هذا العبء. يمكن للمطورين اختيار نموذج أساسي (مثل Qwen، Llama، GPT-OSS)، وتكوين تقنية ضبط دقيق مثل RLVR، وتوجيهها إلى بياناتهم، وتحديد دالة مكافأة. يتعامل SageMaker AI بعد ذلك مع عملية الواجهة الخلفية بأكملها، من توسيع نطاق موارد الحوسبة إلى إدارة مراحل التدريب وضبط المعلمات الفائقة. يسمح هذا التجريد للفرق بالتركيز على جودة مجموعة البيانات وتصميم دالة المكافأة، وهما المحركان الحقيقيان لتحسين النموذج. بالنسبة للمؤسسات، يترجم هذا النهج بلا خوادم إلى دورات تكرارية أسرع، وتكاليف مخفضة، وحاجز دخول أقل لتخصيص LLM المتقدم. إنه يغير قواعد اللعبة لأولئك الذين يتطلعون إلى توسيع نطاق الذكاء الاصطناعي للجميع عن طريق تبسيط عمليات الضبط الدقيق لنماذج اللغة الكبيرة (LLMs) المعقدة.
لماذا يتفوق RLVR في استدعاء الأدوات الوكيلية
عندما يتعلق الأمر بتعليم وكيل ذكاء اصطناعي استخدام الأدوات بشكل موثوق، فإن تقنيات الضبط الدقيق ليست متساوية. يتطلب الضبط الدقيق الخاضع للإشراف (SFT) أمثلة مصنفة بدقة لكل سلوك محتمل يجب أن يظهره النموذج – استدعاء أداة، أو طلب توضيح، أو رفض طلب. يكمن التحدي مع SFT في صعوبته في تعميم عملية اتخاذ القرار بين هذه السلوكيات المتميزة، وغالبًا ما يؤدي أداءً جيدًا على الأنماط التي شوهدت أثناء التدريب ولكنه يتعثر في السيناريوهات الجديدة.
يقدم التعلم المعزز بالمكافآت القابلة للتحقق (RLVR) حلاً أكثر ديناميكية وفعالية. على عكس SFT، يعمل RLVR على حلقة تغذية راجعة:
- توليد المرشحات: لكل مطالبة، يولد النموذج استجابات محتملة متعددة (مثل ثمانية).
- تقييم دالة المكافأة: تقوم
دالة مكافأةمحددة مسبقًا بتسجيل كل مرشح بشكل موضوعي، مما يشير إلى جودته وصحته والتزامه بالسلوك المطلوب (على سبيل المثال، هل استدعى الأداة الصحيحة بالمعلمات الصحيحة؟). - تحديث السياسة: باستخدام تحسين السياسة النسبية للمجموعات (GRPO)، يتم تحديث سياسة النموذج لتعزيز الاستجابات التي سجلت أعلى من متوسط المجموعة المولدة. توجه هذه العملية النموذج بشكل متكرر نحو سلوك أكثر أمثلية.
يتيح هذا التعلم التكراري للنموذج فهم ليس فقط كيفية أداء إجراء معين، ولكن متى يجب أداؤه. يتعلم الفروق الدقيقة في التمييز بين المواقف التي يكون فيها استدعاء الأداة مناسبًا، أو عندما تكون هناك حاجة إلى توضيح، أو عندما يكون الرفض هو أفضل مسار للعمل. ولأن استدعاء الأدوات له هدف قابل للتحقق بشكل طبيعي – سواء استدعى النموذج الوظيفة الصحيحة بالمعلمات الصحيحة – فإنه يتوافق بشكل استثنائي مع نموذج RLVR، مما يجعله مثاليًا لوكلاء الذكاء الاصطناعي الذين يتطلبون موثوقية عالية. تعالج هذه الطريقة بفعالية تحدي تصميم الوكلاء لمقاومة حقن المطالبات من خلال تعزيز أنماط العمل الدقيقة.
إعداد بيانات تدريب عالية الجودة لـ RLVR
يعتمد نجاح أي جهد للضبط الدقيق، خاصةً مع RLVR، على جودة وشمولية بيانات التدريب. لاستدعاء الأدوات الوكيلية، يجب أن تُعلم مجموعة البيانات النموذج أكثر من مجرد استدعاءات API الصحيحة؛ بل يجب أن تشمل الطيف الكامل لسلوكيات الوكيل المطلوبة.
تضمنت طريقتنا توليد 1500 مثال تدريب اصطناعي باستخدام Kiro، وهو بيئة تطوير متكاملة مدعومة بالذكاء الاصطناعي من Amazon. غطت هذه الأمثلة خمسة مخططات أدوات متميزة: get_weather_forecast، search_flights، translate_text، currency_convert، و get_statistics. الأهم من ذلك، تم توزيع البيانات عبر ثلاثة سلوكيات وكيل أساسية لضمان تعلم متوازن:
| السلوك | الوصف | النسبة المئوية | مثال للواقع الأساسي |
|---|---|---|---|
| Execute | يقدم المستخدم جميع المعلمات الضرورية، ويجب على النموذج استدعاء أداة. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Clarify | يفتقر طلب المستخدم إلى المعلمات المطلوبة، ويجب على النموذج طلب توضيح. | 25% | To provide you with the weather information, could you please specify the location? |
| Refuse | الطلب ضار أو خارج النطاق، ويجب على النموذج الرفض بأدب. | 15% | I'm sorry, I cannot fulfill that request. |
اتبع كل مثال تدريب تنسيق JSONL، بما في ذلك مطالبة (تعليمات النظام وطلب المستخدم) وground_truth في حقل reward_model الذي تقوم دالة المكافأة بتسجيل النقاط مقابله. أدى تنوع الصياغة بين الرسمية وغير الرسمية والمقتضبة إلى تعزيز متانة مجموعة البيانات. بينما توفر البيانات الاصطناعية نقطة انطلاق عملية، يمكن للمؤسسات التي لديها سير عمل وكلاء حالية الاستفادة من مطالبات المستخدم الحقيقية واستدعاءات الأدوات من سجلات الإنتاج لتحقيق تدريب عالي الجودة بشكل أكبر. يعد إعداد البيانات هذا خطوة حاسمة في هندسة المطالبات لسلوكيات الوكيل المعقدة.
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get weather for San Francisco"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
الضبط الدقيق لـ Qwen 2.5 7B Instruct باستخدام SageMaker AI
تُعد عملية الضبط الدقيق لنموذج مثل Qwen 2.5 7B Instruct داخل Amazon SageMaker AI Studio مبسطة وبديهية. بعد التأكد من تلبية المتطلبات الأساسية (حساب AWS، دور IAM، نطاق SageMaker AI، مخزن S3)، يمكن للمستخدمين الانتقال إلى قسم النماذج في SageMaker AI Studio.
من هناك، يؤدي تحديد Qwen 2.5 7B Instruct واختيار التخصيص باستخدام واجهة المستخدم إلى فتح صفحة تكوين مخصصة. تسمح هذه الواجهة بما يلي:
- اختيار التقنية: اختيار صريح لـ
التعلم المعزز بالمكافآت القابلة للتحقق (RLVR)من القائمة المنسدلة. - إدخال البيانات: الإشارة إلى بيانات التدريب المعدة والمخزنة في مخزن Amazon S3.
- دالة المكافأة: تكوين آلية تسجيل النقاط المتدرجة التي تحدد كيفية تقييم الاستجابات المرشحة مقابل
ground_truth. - تكوين المعلمات الفائقة: ضبط المعلمات مثل حجم الدفعة، على الرغم من أن SageMaker AI غالبًا ما يتعامل مع الإعدادات المثلى تلقائيًا.
يدعم SageMaker AI مجموعة متنوعة من عائلات النماذج، بما في ذلك Amazon Nova، GPT-OSS، Llama، Qwen، و DeepSeek، إلى جانب تقنيات مختلفة مثل الضبط الدقيق الخاضع للإشراف (SFT)، تحسين التفضيل المباشر (DPO)، RLVR، والتعلم المعزز من ملاحظات الذكاء الاصطناعي (RLAIF). يوفر تتبع MLflow المدمج رؤية لمقاييس التدريب والتحقق، مما يبسط مراقبة الأداء والتكرار. تسرع سهولة الاستخدام هذه بشكل كبير دورة حياة التطوير للمطورين الذين يبنون سير عمل GitHub الوكيلية المتطورة.
نجاح التقييم والنشر
تم تقييم فعالية نموذج Qwen 2.5 7B Instruct الذي تم ضبطه بدقة بشكل صارم على بيانات محتجزة، بما في ذلك سيناريوهات تتضمن أدوات غير مرئية تمامًا – وهو اختبار حاسم للتعميم. كانت النتائج مقنعة: حقق النموذج المضبوط تحسنًا ملحوظًا بنسبة 57% في مكافأة استدعاء الأداة مقارنة بالنموذج الأساسي. يؤكد هذا التقدم الكبير في الأداء على سيناريوهات لم يصادفها أثناء التدريب على قوة RLVR في تعليم النماذج قدرات قوية على اتخاذ القرار للتفاعل مع الأدوات.
تترجم هذه الموثوقية المحسنة مباشرة إلى ثقة أكبر في نشر وكلاء الذكاء الاصطناعي في بيئات الإنتاج. من خلال تقليل حالات هلوسة الأدوات، والمعلمات غير الصحيحة، والإجراءات غير المناسبة، يمكن للشركات الاستفادة من وكلاء الذكاء الاصطناعي للمهام الأكثر حساسية وحرجًا. مع SageMaker AI الذي يتعامل مع تعقيدات نشر النموذج وإدارة البنية التحتية، يمكن للمطورين الانتقال بسلاسة من الضبط الدقيق إلى الإنتاج، وتحقيق الإمكانات الكاملة لحلولهم الوكيلية للذكاء الاصطناعي. تتوافق هذه القدرة مع الرؤية الأوسع لـ تشغيل الذكاء الاصطناعي الوكيلي لتحقيق تأثير في العالم الحقيقي.
باختصار، يوفر الجمع بين تخصيص النموذج بلا خوادم في Amazon SageMaker AI وقدرات التعلم القوية لـ RLVR مسارًا قويًا لبناء أنظمة استدعاء أدوات وكيلية عالية الموثوقية. يسرع هذا النهج المبتكر التطوير، ويقلل العبء التشغيلي، ويقدم في النهاية وكلاء ذكاء اصطناعي يعملون بدقة وموثوقية غير مسبوقة.
الأسئلة الشائعة
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
ابقَ على اطلاع
احصل على آخر أخبار الذكاء الاصطناعي في بريدك.
