SageMaker AI: האצת קריאת כלים סוכנותית עם התאמה אישית חסרת שרתים למודל

AI סוכנותי חולל מהפכה באופן שבו אנו חושבים על משימות אוטומטיות, ומאפשר למערכות לקבל החלטות ולקיים אינטראקציה עם העולם באמצעות כלים מיוחדים. עם זאת, התועלת האמיתית של סוכני AI בייצור תלויה ביכולתם לבצע קריאת כלים סוכנותית באופן אמין. כך סוכנים מבצעים שאילתות למסדי נתונים, מפעילים זרימות עבודה מורכבות, מאחזרים נתונים בזמן אמת ופועלים באופן נחרץ בשם המשתמש. למרבה הצער, מכשול נפוץ לאימוץ רחב היה הנטייה של מודלי שפה גדולים בסיסיים (LLMs) 'להזות' כלים, להעביר פרמטרים שגויים, או לנסות לבצע פעולות כאשר נדרשת הבהרה. כשלים כאלה שוחקים את האמון ומעכבים משמעותית את פריסת הייצור.

Amazon SageMaker AI נכנס לתמונה כדי לפתור את האתגרים הקריטיים הללו. על ידי הצעת התאמה אישית חסרת שרתים למודל, מפתחים יכולים לבצע כוונון עדין ל-LLMs עבור קריאת כלים סוכנותית איתנה ללא התקורה התפעולית הרגילה. במרכז חידוש זה עומדת למידת חיזוק עם תגמולים ניתנים לאימות (RLVR), טכניקה שמאפשרת למודלים לייצר ולאמת את תגובותיהם שלהם, וללמוד להעדיף אינטראקציות כלים מוצלחות. פוסט זה מתעמק באופן שבו SageMaker AI, תוך שימוש ב-RLVR, משפר באופן דרמטי את אמינות הסוכנים, ומציג שיפור של 57% בתגמול קריאת כלים בתרחישים שלא נצפו עם מודל Qwen 2.5 7B Instruct מכוונן עדין.

ההבטחה והסכנות של קריאת כלים סוכנותית

הקונספט של סוכני AI המקיימים אינטראקציה עם מערכות חיצוניות באמצעות כלים הוא אבן יסוד ביישומי AI מתקדמים. דמיינו סוכן שיכול להזמין טיסות, לסכם מסמכים ממסד נתונים, או אפילו להריץ קוד על בסיס פרומפט בשפה טבעית. פונקציונליות זו היא בדיוק מה שקריאת כלים סוכנותית מאפשרת. עם זאת, הדרך לשימוש אמין בכלים רצופת אתגרים.

מודלי LLM בסיסיים, למרות שהם חזקים ביצירת שפה, חסרים לעיתים קרובות את ההבנה המדויקת הנדרשת להפעלת כלים מדויקת. הם עלולים להסיק קיום של כלי שאינו קיים, לפרש לא נכון את כוונת המשתמש, מה שמוביל לערכי פרמטרים שגויים, או לא לזהות מתי חסר מידע קריטי. שגיאות אלו מובילות לחוויית משתמש מתסכלת והופכות פריסה ברמת הארגון למסוכנת. עבור ארגונים המעוניינים להפעיל סוכני AI ביעילות, הבטחת ביצוע כלים צפוי ואמין היא בעלת חשיבות עליונה. ההימור גבוה, שכן סוכנים אמינים יכולים לפתוח רמות אוטומציה ויעילות חסרות תקדים, בעוד שסוכנים לא אמינים עלולים להוביל לשגיאות יקרות וחוסר שביעות רצון של המשתמשים. זו הסיבה שאופטימיזציית מודלים חזקה עבור זרימות עבודה סוכנותיות חיונית, משימה שהופכת לפשוטה יותר עם פלטפורמות כמו SageMaker AI.

התאמה אישית חסרת שרתים למודל: היתרון של SageMaker AI

הגישה המסורתית לשיפור ביצועי LLM כרוכה לרוב בניהול תשתית משמעותי – החל מרכש GPU וארגון זיכרון ועד לתשתית תגמולים מורכבת ושמירת נקודות ביקורת עבור למידת חיזוק. משימות אלו מציגות תקורה תפעולית ניכרת, ומסיטות משאבי מפתחים יקרי ערך מהתמקדות בבעיית הליבה: ליטוש התנהגות המודל.

התאמה אישית חסרת שרתים למודל של Amazon SageMaker AI מסירה נטל זה. מפתחים יכולים לבחור מודל יסוד (לדוגמה, Qwen, Llama, GPT-OSS), להגדיר טכניקת כוונון עדין כמו RLVR, להפנות לנתונים שלהם, ולהגדיר פונקציית תגמול. SageMaker AI מנהל את כל תהליך הקצה האחורי, החל מהרחבת משאבי מחשוב ועד לניהול שלבי אימון וכוונון היפרפרמטרים. הפשטה זו מאפשרת לצוותים להתרכז באיכות מערך הנתונים ובעיצוב פונקציית התגמול, שהם המניעים האמיתיים לשיפור המודל. עבור ארגונים, גישה חסרת שרתים זו מתורגמת למחזורי איטרציה מהירים יותר, עלויות מופחתות ומחסום כניסה נמוך יותר להתאמה אישית מתקדמת של LLM. זהו משנה משחק עבור אלה המבקשים להרחיב את ה-AI לכולם על ידי פישוט תהליכי כוונון עדין של LLMs מורכבים.

מדוע RLVR מצטיינת בקריאת כלים סוכנותית

כשמדובר בלימוד סוכן AI להשתמש בכלים בצורה אמינה, לא כל טכניקות הכוונון העדין שוות. כוונון עדין מונחה (SFT) דורש דוגמאות מתויגות בקפדנות לכל התנהגות אפשרית שהמודל צריך להפגין – קריאת כלי, בקשת הבהרה, או סירוב לבקשה. האתגר עם SFT הוא הקושי שלו להכליל את תהליך קבלת ההחלטות בין התנהגויות נפרדות אלו, ולעיתים קרובות הוא מציג ביצועים טובים על דפוסים שנראו במהלך האימון אך נכשל בתרחישים חדשים.

למידת חיזוק עם תגמולים ניתנים לאימות (RLVR) מציעה פתרון דינמי ויעיל יותר. בניגוד ל-SFT, RLVR פועלת על לולאת משוב:

יצירת מועמדים: עבור כל פרומפט, המודל מייצר מספר (לדוגמה, שמונה) תגובות פוטנציאליות.
הערכת פונקציית תגמול: פונקציית תגמול מוגדרת מראש מדרגת באופן אובייקטיבי כל מועמד, ומציינת את איכותו, נכונותו והיצמדותו להתנהגות הרצויה (לדוגמה, האם קראה לכלי הנכון עם הפרמטרים הנכונים?).
עדכון מדיניות: באמצעות Group Relative Policy Optimization (GRPO), מדיניות המודל מתעדכנת כדי לחזק תגובות שקיבלו ציון מעל הממוצע של הקבוצה שנוצרה. תהליך זה מנחה את המודל באופן איטרטיבי להתנהגות אופטימלית יותר.

למידה איטרטיבית זו מאפשרת למודל להבין לא רק כיצד לבצע פעולה ספציפית, אלא מתי לבצע אותה. הוא לומד את הדקויות של הבחנה בין מצבים שבהם קריאת כלי מתאימה, נדרשת הבהרה, או שסירוב הוא דרך הפעולה הטובה ביותר. מכיוון שלקריאת כלים יש מטרה הניתנת לאימות באופן טבעי – האם המודל קרא לפונקציה הנכונה עם הפרמטרים הנכונים – היא מתאימה באופן יוצא דופן לפרדיגמת RLVR, מה שהופך אותה לאידיאלית עבור סוכני AI הדורשים אמינות גבוהה. שיטה זו מטפלת ביעילות באתגר של עיצוב סוכנים להתנגדות להזרקת פרומפטים על ידי חיזוק דפוסי פעולה מדויקים.

הכנת נתוני אימון איכותיים עבור RLVR

ההצלחה של כל מאמץ כוונון עדין, במיוחד עם RLVR, תלויה באיכות ובהיקף נתוני האימון. עבור קריאת כלים סוכנותית, מערך הנתונים חייב ללמד את המודל יותר מאשר רק הפעלות API נכונות; הוא צריך לכלול את כל מגוון התנהגויות הסוכן הנדרשות.

הגישה שלנו כללה יצירת 1,500 דוגמאות אימון סינתטיות באמצעות Kiro, סביבת הפיתוח המשולבת (IDE) מבוססת AI של Amazon. דוגמאות אלו כיסו חמש סכמות כלים נפרדות: get_weather_forecast, search_flights, translate_text, currency_convert, ו-get_statistics. באופן מכריע, הנתונים חולקו בין שלוש התנהגויות סוכן עיקריות כדי להבטיח למידה מאוזנת:

התנהגות	תיאור	אחוז	דוגמת אמת בסיס
ביצוע	המשתמש מספק את כל הפרמטרים הדרושים, המודל צריך לקרוא לכלי.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
הבהרה	בקשת המשתמש חסרה פרמטרים נדרשים, המודל צריך לבקש הבהרה.	25%	`To provide you with the weather information, could you please specify the location?`
סירוב	הבקשה מזיקה או חורגת מהתחום, המודל צריך לסרב בנימוס.	15%	`I'm sorry, I cannot fulfill that request.`

כל דוגמת אימון עקבה אחר פורמט JSONL, שכלל פרומפט (הוראת מערכת ובקשת משתמש) ואמת בסיס בשדה reward_model שעליו פונקציית התגמול מדרגת. ניסוח משתנה בין רשמי, יומיומי ותמציתי שיפר עוד יותר את איתנות מערך הנתונים. בעוד שנתונים סינתטיים מספקים נקודת התחלה מעשית, ארגונים עם זרימות עבודה סוכנותיות קיימות יכולים למנף פרומפטים אמיתיים של משתמשים וקריאות כלים מיומני ייצור כדי להשיג אימון באיכות גבוהה אף יותר. הכנת נתונים זו היא צעד קריטי בהנדסת פרומפטים עבור התנהגויות סוכנים מורכבות.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

כוונון עדין של Qwen 2.5 7B Instruct עם SageMaker AI

תהליך הכוונון העדין של מודל כמו Qwen 2.5 7B Instruct בתוך Amazon SageMaker AI Studio הוא יעיל ואינטואיטיבי. לאחר הבטחת עמידה בתנאים המוקדמים הנדרשים (חשבון AWS, תפקיד IAM של AWS, דומיין SageMaker AI המספק גישת Studio לפיתוח, ו-S3 bucket), משתמשים יכולים לנווט לקטע מודלים ב-SageMaker AI Studio.

משם, בחירה ב-Qwen 2.5 7B Instruct ובחירה ב-התאמה אישית עם ממשק משתמש פותחת דף תצורה ייעודי. ממשק זה מאפשר:

בחירת טכניקה: בחירה מפורשת של למידת חיזוק עם תגמולים ניתנים לאימות (RLVR) מהתפריט הנפתח.
קלט נתונים: הפניה לנתוני האימון שהוכנו ואוחסנו ב-Amazon S3 bucket.
פונקציית תגמול: הגדרת מנגנון הניקוד הרב-שכבתי המגדיר כיצד תגובות מועמדות מוערכות מול אמת בסיס.
תצורת היפרפרמטרים: התאמת פרמטרים כמו גודל אצווה, אם כי SageMaker AI מטפל לרוב בהגדרות אופטימליות באופן אוטומטי.

SageMaker AI תומך במגוון רחב של משפחות מודלים, כולל Amazon Nova, GPT-OSS, Llama, Qwen, ו-DeepSeek, לצד טכניקות שונות כמו כוונון עדין מונחה (SFT), אופטימיזציה ישירה של העדפות (DPO), RLVR, ולמידת חיזוק ממשוב AI (RLAIF). מעקב MLflow משולב מספק נראות לגבי מדדי אימון ואימות, ומפשט את ניטור הביצועים והאיטרציה. קלות שימוש זו מאיצה באופן דרמטי את מחזור הפיתוח עבור מפתחים הבונים github-agentic-workflows מתוחכמים.

הערכה והצלחת פריסה

יעילות מודל Qwen 2.5 7B Instruct שלנו, שעבר כוונון עדין, הוערכה בקפדנות על נתונים שלא נכללו באימון, כולל תרחישים עם כלים בלתי נראים לחלוטין – מבחן קריטי להכללה. התוצאות היו משכנעות: המודל המכוונן עדין השיג שיפור יוצא דופן של 57% בתגמול קריאת כלים בהשוואה למודל הבסיס. קפיצה משמעותית זו בביצועים בתרחישים שלא נתקל בהם במהלך האימון מדגישה את עוצמתה של RLVR בהקניית יכולות קבלת החלטות איתנות למודלים עבור אינטראקציה עם כלים.

אמינות משופרת זו מתורגמת ישירות לאמון וביטחון גבוהים יותר בפריסת סוכני AI לסביבות ייצור. על ידי מזעור מקרים של 'הזיות' כלים, פרמטרים שגויים ופעולות לא הולמות, עסקים יכולים למנף סוכני AI למשימות קריטיות ורגישות יותר. עם SageMaker AI המטפל במורכבויות של פריסת מודלים וניהול תשתית, מפתחים יכולים לעבור בצורה חלקה מכוונון עדין לייצור, ולממש את מלוא הפוטנציאל של פתרונות AI סוכנותיים שלהם. יכולת זו מתיישרת עם החזון הרחב יותר של הפעלת AI סוכנותי להשפעה בעולם האמיתי.

לסיכום, השילוב של התאמה אישית חסרת שרתים למודל של Amazon SageMaker AI ויכולות הלמידה החזקות של RLVR מספק נתיב עוצמתי לבניית מערכות קריאת כלים סוכנותית אמינות ביותר. גישה חדשנית זו מאיצה את הפיתוח, מפחיתה את העומס התפעולי, ובסופו של דבר מספקת סוכני AI שמבצעים ביצועים בדיוק ואמינות חסרי תקדים.

מקור מקורי

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

שאלות נפוצות

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

הישארו מעודכנים

קבלו את חדשות ה-AI האחרונות לתיבת הדוא״ל.

שתף