What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Pospeševanje klicanja agentnih orodij z brezstrežniško prilagoditvijo

Agentna umetna inteligenca (AI) je revolucionirala naše razmišljanje o avtomatiziranih nalogah, saj sistemom omogoča sprejemanje odločitev in interakcijo s svetom preko specializiranih orodij. Vendar pa je resnična uporabnost AI agentov v produkciji odvisna od njihove zmožnosti zanesljivega izvajanja klicanja agentnih orodij. Tako agenti poizvedujejo po bazah podatkov, sprožajo kompleksne delovne tokove, pridobivajo podatke v realnem času in odločno ukrepajo v imenu uporabnika. Na žalost je pogosta ovira za širšo uporabo bila nagnjenost osnovnih velikih jezikovnih modelov (LLM), da halucinirajo orodja, posredujejo napačne parametre ali poskušajo izvesti dejanja, ko je potrebno pojasnilo. Takšne napake zmanjšujejo zaupanje in bistveno ovirajo produkcijsko uvedbo.

Amazon SageMaker AI se loteva reševanja teh kritičnih izzivov. Z brezstrežniško prilagoditvijo modelov lahko razvijalci fino uglasijo LLM-je za robustno klicanje agentnih orodij brez običajnih operativnih stroškov. Ključnega pomena za to inovacijo je učenje z ojačitvami z preverljivimi nagradami (RLVR), tehnika, ki modelom omogoča generiranje in potrjevanje lastnih odgovorov, s čimer se učijo dajati prednost uspešnim interakcijam z orodji. Ta objava podrobneje opisuje, kako SageMaker AI z uporabo RLVR dramatično izboljšuje zanesljivost agenta, kar prikazuje 57-odstotno izboljšanje nagrade za klic orodja v nepredvidenih scenarijih s fino uglašenim modelom Qwen 2.5 7B Instruct.

Obljube in nevarnosti klicanja agentnih orodij

Koncept AI agentov, ki interagirajo z zunanjimi sistemi prek orodij, je temelj naprednih AI aplikacij. Predstavljajte si agenta, ki lahko rezervira lete, povzema dokumente iz baze podatkov ali celo izvaja kodo na podlagi naravnega jezikovnega poziva. Ta funkcionalnost je natančno tisto, kar omogoča klicanje agentnih orodij. Vendar je pot do zanesljive uporabe orodij polna izzivov.

Osnovni LLM-ji, čeprav so močni pri generiranju jezika, pogosto nimajo niansiranega razumevanja, potrebnega za natančno priklic orodja. Lahko bi sklepali na orodje, ki ne obstaja, napačno razlagali uporabnikov namen, kar bi vodilo do napačnih vrednosti parametrov, ali ne bi prepoznali, kdaj manjkajo kritične informacije. Te napake vodijo do frustrirajočih uporabniških izkušenj in tvegane uvedbe na ravni podjetja. Za organizacije, ki želijo učinkovito operacionalizirati AI agente, je zagotavljanje predvidljivega in zanesljivega izvajanja orodij izjemno pomembno. Vložki so visoki, saj lahko zanesljivi agenti odklenejo neprimerljive ravni avtomatizacije in učinkovitosti, medtem ko nezanesljivi lahko vodijo do dragih napak in nezadovoljstva uporabnikov. Zato je robustna optimizacija modelov za agentske delovne tokove bistvena, naloga pa je poenostavljena s platformami, kot je SageMaker AI.

Brezstrežniška prilagoditev modelov: prednost SageMaker AI

Tradicionalni pristop k izboljšanju zmogljivosti LLM-jev pogosto vključuje pomembno upravljanje infrastrukture – od nabave GPE in orkestracije pomnilnika do kompleksne infrastrukture nagrajevanja in kontrolnih točk za učenje z ojačitvami. Te naloge prinašajo precejšnje operativne stroške, ki preusmerjajo dragocene razvijalske vire od osrednjega problema: izboljšanja vedenja modela.

Brezstrežniška prilagoditev modelov v Amazon SageMaker AI odpravlja to breme. Razvijalci lahko izberejo temeljni model (npr. Qwen, Llama, GPT-OSS), konfigurirajo tehniko finega uglaševanja, kot je RLVR, pokažejo na svoje podatke in definirajo funkcijo nagrajevanja. SageMaker AI nato upravlja celoten zaledni proces, od skaliranja računalniških virov do upravljanja faz usposabljanja in uglaševanja hiperparametrov. Ta abstrakcija omogoča ekipam, da se osredotočijo na kakovost nabora podatkov in zasnovo funkcije nagrajevanja, ki sta resnična gonila izboljšanja modela. Za podjetja se ta brezstrežniški pristop prevaja v hitrejše iteracijske cikle, zmanjšane stroške in nižjo vstopno oviro za napredno prilagoditev LLM-jev. To je prelomnica za tiste, ki želijo razširiti AI za vse, s poenostavitvijo kompleksnih procesov finega uglaševanja LLM-jev.

Zakaj je RLVR odličen za klicanje agentnih orodij

Ko gre za učenje AI agenta, da zanesljivo uporablja orodja, niso vse tehnike finega uglaševanja enake. Nadzorovano fino uglaševanje (SFT) zahteva natančno označene primere za vsako možno vedenje, ki naj bi ga model prikazoval – klicanje orodja, prosenje za pojasnilo ali zavrnitev zahteve. Izziv pri SFT je njegova težava pri posploševanju procesa odločanja med temi različnimi vedenji, pogosto dobro deluje na vzorcih, videnih med usposabljanjem, vendar odpove pri novih scenarijih.

Učenje z ojačitvami z preverljivimi nagradami (RLVR) ponuja bolj dinamično in učinkovito rešitev. Za razliko od SFT, RLVR deluje na povratni zanki:

Generiranje kandidatov: Za vsak poziv model generira več (npr. osem) potencialnih odgovorov.
Vrednotenje funkcije nagrajevanja: Vnaprej določena funkcija nagrajevanja objektivno oceni vsakega kandidata, kar kaže na njegovo kakovost, pravilnost in skladnost z želenim vedenjem (npr. ali je poklical pravo orodje z ustreznimi parametri?).
Posodobitev politike: Z uporabo optimizacije politike relativne skupine (GRPO) se politika modela posodobi, da okrepi odgovore, ki so dosegli nadpovprečno oceno znotraj generirane skupine. Ta proces iterativno vodi model k bolj optimalnemu vedenju.

To iterativno učenje omogoča modelu, da razume ne le kako izvesti določeno dejanje, ampak tudi kdaj ga izvesti. Nauči se nians razlikovanja med situacijami, ko je klic orodja ustrezen, ko je potrebno pojasnilo ali ko je zavrnitev najboljši potek dejanja. Ker ima klicanje orodij naravno preverljiv cilj – ali je model poklical pravo funkcijo z ustreznimi parametri – se izjemno dobro ujema s paradigmo RLVR, zaradi česar je idealen za AI agente, ki zahtevajo visoko zanesljivost. Ta metoda učinkovito obravnava izziv oblikovanja agentov, odpornih na vbrizgavanje pozivov, z okrepitvijo natančnih vzorcev delovanja.

Priprava visokokakovostnih učnih podatkov za RLVR

Uspeh vsakega prizadevanja za fino uglaševanje, še posebej z RLVR, je odvisen od kakovosti in celovitosti učnih podatkov. Za klicanje agentnih orodij mora nabor podatkov model naučiti več kot le pravilne priklicovanja API-ja; zajeti mora celoten spekter zahtevanih vedenj agenta.

Naš pristop je vključeval generiranje 1.500 sintetičnih učnih primerov z uporabo Kiro, Amazonovega IDE-ja, ki ga poganja umetna inteligenca. Ti primeri so zajemali pet različnih shem orodij: get_weather_forecast, search_flights, translate_text, currency_convert in get_statistics. Ključno je, da so bili podatki razdeljeni med tri primarna vedenja agenta, da se zagotovi uravnoteženo učenje:

Vedenje	Opis	Odstotek	Primer resnične vrednosti
Izvedi	Uporabnik poda vse potrebne parametre, model naj pokliče orodje.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Pojasni	V uporabnikovi zahtevi manjkajo potrebni parametri, model naj prosi za pojasnilo.	25%	`Za posredovanje informacij o vremenu, ali lahko navedete lokacijo?`
Zavrni	Zahteva je škodljiva ali izven področja, model naj vljudno zavrne.	15%	`Žal mi je, te zahteve ne morem izpolniti.`

Vsak učni primer je sledil formatu JSONL, vključno z pozivom (sistemska navodila in uporabnikova zahteva) in ground_truth v polju reward_model, proti kateremu funkcija nagrajevanja točkuje. Različna formulacija med formalnim, neformalnim in jedrnatim je dodatno izboljšala robustnost nabora podatkov. Medtem ko sintetični podatki zagotavljajo praktično izhodišče, lahko organizacije z obstoječimi agentskimi delovnimi tokovi izkoristijo realne uporabniške pozive in klice orodij iz produkcijskih dnevnikov za doseganje še višje kakovosti usposabljanja. Ta priprava podatkov je ključen korak v inženiringu pozivov za kompleksna vedenja agentov.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

Fino uglaševanje Qwen 2.5 7B Instruct z SageMaker AI

Postopek finega uglaševanja modela, kot je Qwen 2.5 7B Instruct, v Amazon SageMaker AI Studio je poenostavljen in intuitiven. Ko so izpolnjeni potrebni predpogoji (račun AWS, vloga IAM, domena SageMaker AI, vedro S3), lahko uporabniki v SageMaker AI Studio krmarijo do razdelka Modeli.

Od tam, izbira Qwen 2.5 7B Instruct in nato Prilagodi z uporabniškim vmesnikom odpre namensko stran za konfiguracijo. Ta vmesnik omogoča:

Izbira tehnike: Izrecno izbiro Učenja z ojačitvami z preverljivimi nagradami (RLVR) iz spustnega menija.
Vnos podatkov: Prikaz na pripravljene učne podatke, shranjene v vedru Amazon S3.
Funkcija nagrajevanja: Konfiguracijo večstopenjskega mehanizma točkovanja, ki določa, kako se kandidatni odgovori ocenjujejo glede na ground_truth.
Konfiguracija hiperparametrov: Prilagajanje parametrov, kot je velikost paketa, čeprav SageMaker AI pogosto samodejno obravnava optimalne nastavitve.

SageMaker AI podpira raznoliko paleto družin modelov, vključno z Amazon Nova, GPT-OSS, Llama, Qwen in DeepSeek, skupaj z različnimi tehnikami, kot so nadzorovano fino uglaševanje (SFT), optimizacija neposrednih preferenc (DPO), RLVR in učenje z ojačitvami iz povratnih informacij AI (RLAIF). Integrirano sledenje MLflow zagotavlja preglednost metrik usposabljanja in validacije, kar poenostavlja spremljanje zmogljivosti in iteracijo. Ta enostavnost uporabe dramatično pospešuje razvojni življenjski cikel za razvijalce, ki gradijo sofisticirane github-agentske-delovne-tokove.

Uspeh pri vrednotenju in uvedbi

Učinkovitost našega fino uglašenega modela Qwen 2.5 7B Instruct je bila strogo ovrednotena na podatkih, ki niso bili vključeni v usposabljanje, vključno s scenariji s popolnoma nevidnimi orodji – ključen test za posploševanje. Rezultati so bili prepričljivi: fino uglašen model je dosegel izjemno 57-odstotno izboljšanje nagrade za klic orodja v primerjavi z osnovnim modelom. Ta pomemben skok v zmogljivosti pri scenarijih, s katerimi se med usposabljanjem ni srečal, poudarja moč RLVR pri poučevanju modelov robustnih sposobnosti odločanja za interakcijo z orodji.

Ta izboljšana zanesljivost se neposredno prevaja v večje zaupanje pri uvajanju AI agentov v produkcijska okolja. Z zmanjšanjem primerov 'halucinacij' orodij, napačnih parametrov in neprimernih dejanj lahko podjetja izkoriščajo AI agente za bolj kritične in občutljive naloge. Ker SageMaker AI obravnava kompleksnost uvajanja modelov in upravljanja infrastrukture, se lahko razvijalci nemoteno premaknejo od finega uglaševanja do produkcije, s čimer uresničijo polni potencial svojih agentskih rešitev AI. Ta zmogljivost se ujema s širšo vizijo operacionalizacije agentske AI za vpliv v realnem svetu.

Če povzamemo, kombinacija brezstrežniške prilagoditve modelov Amazon SageMaker AI in robustnih učnih zmožnosti RLVR zagotavlja zmogljivo pot do izgradnje visoko zanesljivih sistemov klicanja agentnih orodij. Ta inovativen pristop pospešuje razvoj, zmanjšuje operativno breme in na koncu prinaša AI agente, ki delujejo z izjemno natančnostjo in zanesljivostjo.

SageMaker AI: Pospeševanje klicanja agentnih orodij z brezstrežniško prilagoditvijo

SageMaker AI: Pospeševanje klicanja agentnih orodij z brezstrežniško prilagoditvijo

Obljube in nevarnosti klicanja agentnih orodij

Brezstrežniška prilagoditev modelov: prednost SageMaker AI

Zakaj je RLVR odličen za klicanje agentnih orodij

Priprava visokokakovostnih učnih podatkov za RLVR

Fino uglaševanje Qwen 2.5 7B Instruct z SageMaker AI

Uspeh pri vrednotenju in uvedbi

Pogosta vprašanja

Bodite na tekočem