What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Serverless Fərdiləşdirmə ilə Agentik Alət Zənglərini Sürətləndirmək

Agentik AI, avtomatlaşdırılmış tapşırıqlar haqqında düşüncələrimizi inqilab etdi, sistemlərə qərar qəbul etməyə və xüsusi alətlər vasitəsilə dünya ilə əlaqə qurmağa imkan verdi. Lakin, AI agentlərinin istehsalda əsl faydası, onların etibarlı şəkildə agentik alət zəngini həyata keçirmək bacarığından asılıdır. Bu, agentlərin məlumat bazalarını necə sorğuladıqları, mürəkkəb iş axınlarını necə işə saldıqları, real-time məlumatları necə əldə etdikləri və istifadəçi adından qətiyyətlə necə hərəkət etdikləridir. Təəssüf ki, geniş tətbiqin qarşısındakı ümumi bir maneə, əsas böyük dil modellərinin (LLM) mövcud olmayan alətləri xəyali olaraq yaratmağa, səhv parametrlər ötürməyə və ya aydınlaşdırma lazım olduqda hərəkət etməyə cəhd etməyə meyilli olmasıdır. Bu cür uğursuzluqlar etimadı azaldır və istehsalda yerləşdirməni əhəmiyyətli dərəcədə çətinləşdirir.

Amazon SageMaker AI bu kritik çətinlikləri həll etmək üçün irəli addım atır. Serverless model fərdiləşdirməsi təklif edərək, inkişaf etdiricilər tipik əməliyyat yükü olmadan möhkəm agentik alət zəngi üçün LLM-ləri dəqiq tənzimləyə bilərlər. Bu yeniliyin mərkəzində, modellərə öz cavablarını yaratmağa və doğrulamağa imkan verən, uğurlu alət qarşılıqlı əlaqələrini üstün tutmağı öyrədən Doğrulana Bilən Mükafatlarla Gücləndirici Öyrənmə (RLVR) durur. Bu yazı SageMaker AI-nin, RLVR-dən istifadə edərək, agent etibarlılığını necə dramatik şəkildə yaxşılaşdırdığını araşdırır, dəqiq tənzimlənmiş Qwen 2.5 7B Instruct modeli ilə görülməmiş ssenarilərdə alət zəngi mükafatında 57% yaxşılaşma nümayiş etdirir.

Agentik Alət Zənginin Vədi və Təhlükələri

AI agentlərinin alətlər vasitəsilə xarici sistemlərlə qarşılıqlı əlaqəsi, qabaqcıl AI tətbiqlərinin əsasını təşkil edir. Təsəvvür edin ki, bir agent uçuşları bron edə, məlumat bazasından sənədləri ümumiləşdirə və ya hətta təbii dil təlimatına əsasən kod icra edə bilir. Bu funksionallıq məhz agentik alət zənginin təmin etdiyi şeydir. Lakin, etibarlı alət istifadəsinə gedən yol çətinliklərlə doludur.

Əsas LLM-lər, dil yaratmada güclü olsalar da, dəqiq alət çağırışı üçün lazım olan incə anlayışdan məhrum ola bilərlər. Onlar mövcud olmayan bir aləti fərz edə, istifadəçi niyyətini səhv şərh edərək yanlış parametr dəyərlərinə səbəb ola və ya kritik məlumatların çatışmadığını tanıya bilməyə bilərlər. Bu səhvlər istifadəçilər üçün sinir bozucu təcrübələrə səbəb olur və müəssisə səviyyəsində yerləşdirməni riskli edir. AI agentlərini effektiv şəkildə işə salmaq istəyən təşkilatlar üçün proqnozlaşdırıla bilən və etibarlı alət icrasını təmin etmək son dərəcə vacibdir. Risk yüksəkdir, çünki etibarlı agentlər görünməmiş avtomatlaşdırma və səmərəlilik səviyyələrini açarkən, etibarsız agentlər bahalı səhvlərə və istifadəçi narazılığına səbəb ola bilər. Buna görə də, SageMaker AI kimi platformalarla daha da sadələşdirilmiş model optimallaşdırılması agentik iş axınları üçün vacibdir.

Serverless Model Fərdiləşdirməsi: SageMaker AI-nın Üstünlüyü

LLM performansını yaxşılaşdırmaq üçün ənənəvi yanaşma tez-tez əhəmiyyətli infrastruktur idarəetməsini əhatə edir – GPU tədarükü və yaddaş orkestrasiyasından tutmuş, gücləndirici öyrənmə üçün mürəkkəb mükafat infrastrukturuna və yoxlama nöqtələrinin idarəedilməsinə qədər. Bu tapşırıqlar əhəmiyyətli əməliyyat yükü yaradır, qiymətli inkişafçı resurslarını əsas problemə – model davranışını təkmilləşdirməyə diqqət yetirməkdən yayındırır.

Amazon SageMaker AI-nın serverless model fərdiləşdirməsi bu yükü aradan qaldırır. İnkişaf etdiricilər bir təməl model (məsələn, Qwen, Llama, GPT-OSS) seçə, RLVR kimi bir dəqiq tənzimləmə texnikasını konfiqurasiya edə, məlumatlarına işarə edə və bir mükafat funksiyası təyin edə bilərlər. SageMaker AI daha sonra bütün arxa cəbhə prosesini, hesablama resurslarının miqyaslanmasından təlim mərhələlərinin və hiperparametr tənzimlənməsinin idarəedilməsinə qədər həyata keçirir. Bu abstraksiya komandalara məlumat dəstinin keyfiyyətinə və modelin yaxşılaşmasının əsl hərəkətverici qüvvələri olan mükafat funksiyasının dizaynına diqqət yetirməyə imkan verir. Müəssisələr üçün bu serverless yanaşma, daha sürətli iterasiya dövrlərinə, azaldılmış xərclərə və qabaqcıl LLM fərdiləşdirməsi üçün daha aşağı giriş baryerinə çevrilir. Bu, mürəkkəb LLM-lərin dəqiq tənzimlənməsi proseslərini sadələşdirərək AI-nı hər kəs üçün miqyaslandırmaq istəyənlər üçün bir oyun dəyişdiricidir.

RLVR Agentik Alət Zəngi üçün Niyə Üstündür?

Bir AI agentinə alətləri etibarlı şəkildə istifadə etməyi öyrətmək mövzusuna gəldikdə, bütün dəqiq tənzimləmə texnikaları bərabər deyil. Nəzarətli Dəqiq Tənzimləmə (SFT), modelin göstərməli olduğu hər bir mümkün davranış üçün – alətə zəng etmək, aydınlaşdırma istəmək və ya sorğudan imtina etmək – diqqətlə etiketlənmiş nümunələr tələb edir. SFT ilə çətinlik, bu fərqli davranışlar arasında qərar qəbul etmə prosesini ümumiləşdirməkdə çətinlik çəkməsidir, tez-tez təlim zamanı görünən nümunələrdə yaxşı performans göstərir, lakin yeni ssenarilərdə büdrəyir.

Doğrulana Bilən Mükafatlarla Gücləndirici Öyrənmə (RLVR) daha dinamik və effektiv bir həll təklif edir. SFT-dən fərqli olaraq, RLVR bir əks əlaqə dövrəsi üzərində işləyir:

Namizəd Yaratma: Hər təlimat üçün model birdən çox (məsələn, səkkiz) potensial cavab yaradır.
Mükafat Funksiyasının Qiymətləndirilməsi: Əvvəlcədən təyin edilmiş bir mükafat funksiyası hər bir namizədi obyektiv olaraq qiymətləndirir, onun keyfiyyətini, doğruluğunu və arzu olunan davranışa uyğunluğunu (məsələn, doğru aləti düzgün parametrlərlə çağırdımı?) göstərir.
Siyasət Yenilənməsi: Qrup Nisbi Siyasət Optimizasiyası (GRPO) istifadə edərək, modelin siyasəti, yaradılmış qrupun ortalamasından daha yüksək nəticə göstərən cavabları gücləndirmək üçün yenilənir. Bu proses modelin daha optimal davranışa doğru təkrarlanan şəkildə rəhbərlik edir.

Bu təkrarlanan öyrənmə modelə yalnız müəyyən bir hərəkəti necə yerinə yetirəcəyini deyil, həm də nə vaxt yerinə yetirəcəyini anlamağa imkan verir. O, alət zənginin uyğun olduğu, aydınlaşdırmanın lazım olduğu və ya imtinanın ən yaxşı hərəkət olduğu vəziyyətlər arasında fərq qoymağın incəliklərini öyrənir. Alət zənginin təbii olaraq doğrulana bilən bir məqsədi olduğundan – modelin doğru funksiyanı doğru parametrlərlə çağırıb-çağırmaması – o, RLVR paradiqmasına son dərəcə uyğun gəlir və yüksək etibarlılıq tələb edən AI agentləri üçün ideal olur. Bu metod, dəqiq hərəkət nümunələrini gücləndirərək agentləri təlimat inyeksiyasına qarşı dayanıqlı etmək çağırışını effektiv şəkildə həll edir.

RLVR üçün Yüksək Keyfiyyətli Təlim Məlumatlarının Hazırlanması

Hər hansı bir dəqiq tənzimləmə işinin, xüsusən də RLVR ilə uğuru, təlim məlumatlarının keyfiyyətindən və hərtərəfliliyindən asılıdır. Agentik alət zəngi üçün məlumat dəsti modelə yalnız doğru API çağırışlarını deyil, həm də tələb olunan agent davranışlarının tam spektrini öyrətməlidir.

Bizim yanaşmamız Amazon-un AI tərəfindən idarə olunan IDE-si olan Kiro istifadə edərək 1,500 sintetik təlim nümunəsi yaratmaqdan ibarət idi. Bu nümunələr beş fərqli alət sxemini əhatə edirdi: get_weather_forecast, search_flights, translate_text, currency_convert və get_statistics. Ən əsası, məlumatlar balanslaşdırılmış öyrənməni təmin etmək üçün üç əsas agent davranışı arasında bölüşdürülmüşdü:

Davranış	Təsvir	Faizi	Ground Truth Nümunəsi
İcra et	İstifadəçi bütün lazımi parametrləri təmin edir, model bir alətə zəng etməlidir.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Aydınlaşdır	İstifadəçinin sorğusunda tələb olunan parametrlər çatışmır, model aydınlaşdırma tələb etməlidir.	25%	`Hava məlumatını təmin etmək üçün, zəhmət olmasa yeri qeyd edərdinizmi?`
İmtina et	Sorğu zərərli və ya əhatə dairəsindən kənardır, model nəzakətlə imtina etməlidir.	15%	`Bağışlayın, bu sorğunu yerinə yetirə bilmərəm.`

Hər bir təlim nümunəsi, bir təlimat (sistem təlimatı və istifadəçi sorğusu) və reward_model sahəsində mükafat funksiyasının qiymətləndirdiyi bir ground_truth daxil olmaqla JSONL formatında idi. Formal, gündəlik və qısa ifadələr arasında dəyişən cümlələr məlumat dəstinin möhkəmliyini daha da artırdı. Sintetik məlumatlar praktik bir başlanğıc nöqtəsi təmin etsə də, mövcud agentik iş axınları olan təşkilatlar daha yüksək keyfiyyətli təlim əldə etmək üçün istehsal qeydlərindən real istifadəçi təlimatlarından və alət zənglərindən istifadə edə bilərlər. Bu məlumat hazırlığı, mürəkkəb agent davranışları üçün təlimat mühəndisliyində kritik bir addımdır.

{
  "prompt": [
    {"role": "system", "content": "Siz faydalı bir köməkçisiniz. Alətlərdən istifadə edərkən belə cavab verin: [...]"},
    {"role": "user", "content": "San Francisco üçün hava məlumatı al"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "Siz faydalı bir köməkçisiniz. Alətlərdən istifadə edərkən belə cavab verin: [...]"},
    {"role": "user", "content": "Havanı al"}
  ],
  "reward_model": {
    "ground_truth": "Hava məlumatını təmin etmək üçün, zəhmət olmasa yeri qeyd edərdinizmi?"
  }
}

SageMaker AI ilə Qwen 2.5 7B Instruct modelinin dəqiq tənzimlənməsi

Amazon SageMaker AI Studio-da Qwen 2.5 7B Instruct kimi bir modelin dəqiq tənzimlənməsi prosesi sadələşdirilmiş və intuitivdir. Lazımi ilkin şərtlər (AWS hesabı, IAM rolu, SageMaker AI domaini, S3 qabı) yerinə yetirildikdən sonra istifadəçilər SageMaker AI Studio-da Modellər bölməsinə keçə bilərlər.

Oradan Qwen 2.5 7B Instruct seçərək və UI ilə fərdiləşdir seçimi ilə xüsusi bir konfiqurasiya səhifəsi açılır. Bu interfeys aşağıdakılara imkan verir:

Texnika Seçimi: Açılan siyahıdan açıq şəkildə Doğrulana Bilən Mükafatlarla Gücləndirici Öyrənmə (RLVR) seçmək.
Məlumat Girişi: Amazon S3 qabında saxlanılan hazırlanmış təlim məlumatlarına işarə etmək.
Mükafat Funksiyası: Namizəd cavabların ground_truth qarşısında necə qiymətləndirildiyini təyin edən pilləli qiymətləndirmə mexanizmini konfiqurasiya etmək.
Hiperparametr Konfiqurasiyası: Batch ölçüsü kimi parametrləri tənzimləmək, baxmayaraq ki, SageMaker AI tez-tez optimal parametrləri avtomatik idarə edir.

SageMaker AI, Amazon Nova, GPT-OSS, Llama, Qwen və DeepSeek kimi müxtəlif model ailələrini, habelə Nəzarətli Dəqiq Tənzimləmə (SFT), Birbaşa Üstünlük Optimizasiyası (DPO), RLVR və AI Geri Bildirimi ilə Gücləndirici Öyrənmə (RLAIF) kimi müxtəlif texnikaları dəstəkləyir. İnteqrasiya olunmuş MLflow izləməsi təlim və validasiya metriklərinə görünürlük təmin edərək performansın monitorinqini və iterasiyasını sadələşdirir. Bu istifadə asanlığı, mürəkkəb github-agentic-workflows quran inkişaf etdiricilər üçün inkişaf dövrəsini əhəmiyyətli dərəcədə sürətləndirir.

Qiymətləndirmə və Yerləşdirmə Uğuru

Dəqiq tənzimlənmiş Qwen 2.5 7B Instruct modelimizin effektivliyi saxlanılmış məlumatlar üzərində, o cümlədən tamamilə görülməmiş alətlər ilə ssenarilərdə ciddi şəkildə qiymətləndirildi – bu, ümumiləşdirmə üçün kritik bir testdir. Nəticələr təsirli idi: dəqiq tənzimlənmiş model əsas modelə nisbətən alət zəngi mükafatında diqqətəlayiq 57% yaxşılaşma əldə etdi. Təlim zamanı qarşılaşmadığı ssenarilərdə bu əhəmiyyətli performans sıçrayışı, modellərə alət qarşılıqlı əlaqəsi üçün möhkəm qərar qəbul etmə qabiliyyətlərini öyrətməkdə RLVR-nin gücünü vurğulayır.

Bu artırılmış etibarlılıq, AI agentlərini istehsal mühitlərinə yerləşdirməkdə daha yüksək etimad və güvənə birbaşa çevrilir. Alət xəyalları, yanlış parametrlər və uyğun olmayan hərəkətlər hallarını minimuma endirməklə, müəssisələr daha kritik və həssas tapşırıqlar üçün AI agentlərindən istifadə edə bilərlər. SageMaker AI modelin yerləşdirilməsi və infrastruktur idarəetməsi mürəkkəbliklərini həll etdiyi üçün, inkişaf etdiricilər dəqiq tənzimləmədən istehsala problemsiz keçə bilər, agentik AI həllərinin tam potensialını reallaşdıra bilərlər. Bu qabiliyyət, real dünya təsiri üçün agentik AI-nin işə salınması kimi daha geniş vizyonla uyğun gəlir.

Xülasə, Amazon SageMaker AI-nın serverless model fərdiləşdirməsi və RLVR-in möhkəm öyrənmə qabiliyyətlərinin birləşməsi, yüksək etibarlı agentik alət zəngi sistemləri qurmaq üçün güclü bir yol təqdim edir. Bu innovativ yanaşma inkişafı sürətləndirir, əməliyyat yükünü azaldır və nəticədə görünməmiş dəqiqlik və etibarlılıqla işləyən AI agentləri təmin edir.

SageMaker AI: Serverless Fərdiləşdirmə ilə Agentik Alət Zənglərini Sürətləndirmək

SageMaker AI: Serverless Fərdiləşdirmə ilə Agentik Alət Zənglərini Sürətləndirmək

Agentik Alət Zənginin Vədi və Təhlükələri

Serverless Model Fərdiləşdirməsi: SageMaker AI-nın Üstünlüyü

RLVR Agentik Alət Zəngi üçün Niyə Üstündür?

RLVR üçün Yüksək Keyfiyyətli Təlim Məlumatlarının Hazırlanması

SageMaker AI ilə Qwen 2.5 7B Instruct modelinin dəqiq tənzimlənməsi

Qiymətləndirmə və Yerləşdirmə Uğuru

Tez-tez Verilən Suallar

Xəbərdar olun