What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Agendilise tööriistakutse kiirendamine serverita mudeli kohandamisega

Agendiline AI on muutnud seda, kuidas me automatiseeritud ülesannetest mõtleme, võimaldades süsteemidel teha otsuseid ja suhelda maailmaga spetsiaalsete tööriistade kaudu. Kuid AI agentide tõeline kasulikkus tootmises sõltub nende võimest usaldusväärselt sooritada agendilisi tööriistakutseid. Nii saavad agendid päringuid teha andmebaasidesse, käivitada keerukaid töövooge, hankida reaalajas andmeid ja tegutseda otsustavalt kasutaja nimel. Kahjuks on laialdase kasutuselevõtu levinud takistuseks olnud baas-suurte keelemudelite (LLM) kalduvus hallutsineerida tööriistu, edastada valesid parameetreid või proovida toiminguid, kui on vaja selgitust. Sellised vead kahjustavad usaldust ja takistavad oluliselt tootmises juurutamist.

Amazon SageMaker AI astub sammu, et lahendada need kriitilised probleemid. Pakkudes serverita mudeli kohandamist, saavad arendajad peenhäälestada LLM-e robustsete agendiliste tööriistakutsete jaoks ilma tavalise halduskoormuseta. Selle innovatsiooni keskmes on Tugevdamisõpe kontrollitavate tasudega (RLVR), tehnika, mis annab mudelitele võime genereerida ja valideerida oma vastuseid, õppides eelistama edukaid tööriistainteraktsioone. See postitus süveneb sellesse, kuidas SageMaker AI, kasutades RLVR-i, parandab dramaatiliselt agendi usaldusväärsust, näidates 57% paranemist tööriistakutsete tasus seninägemata stsenaariumide puhul peenhäälestatud Qwen 2.5 7B Instruct mudeliga.

Agendilise tööriistakutse lubadus ja ohud

AI agentide kontseptsioon, mis suhtlevad väliste süsteemidega tööriistade kaudu, on arenenud AI rakenduste nurgakivi. Kujutage ette agenti, mis suudab broneerida lende, kokku võtta dokumente andmebaasist või isegi käivitada koodi loomuliku keele viipa alusel. Just seda võimaldab agendiline tööriistakutse. Kuid tee usaldusväärse tööriistade kasutamiseni on täis väljakutseid.

Baas-LLM-id, kuigi võimsad keele genereerimises, ei oma sageli täpseks tööriista käivitamiseks vajalikku nüansirikast arusaama. Nad võivad järeldada olematut tööriista, valesti tõlgendada kasutaja kavatsust, mis viib valedele parameetrite väärtustele, või ei suuda ära tunda, kui kriitiline teave puudub. Need eksimused viivad pettumust valmistava kasutajakogemuses ja muudavad ettevõtte tasandi juurutamise riskantseks. Organisatsioonidele, kes soovivad AI agente tõhusalt opereerida, on ennustatava ja usaldusväärse tööriista täitmise tagamine ülimalt oluline. Panused on kõrged, sest usaldusväärsed agendid võivad avada enneolematu automatiseerimise ja tõhususe taseme, samas kui ebausaldusväärsed võivad viia kulukate vigade ja kasutajate rahulolematuseni. Seepärast on robustne mudeli optimeerimine agendiliste töövoogude jaoks hädavajalik, ülesanne, mida lihtsustavad sellised platvormid nagu SageMaker AI.

Serverita mudeli kohandamine: SageMaker AI eelis

Traditsiooniline lähenemine LLM-i jõudluse parandamiseks hõlmab sageli märkimisväärset infrastruktuuri haldamist – alates GPU hankimisest ja mäluorkestrist kuni keerulise tasu infrastruktuuri ja kontrollpunktideni tugevdamisõppe jaoks. Need ülesanded tekitavad märkimisväärse halduskoormuse, suunates väärtuslikud arendajaressursid eemale põhiprobleemist: mudeli käitumise viimistlemisest.

Amazon SageMaker AI serverita mudeli kohandamine eemaldab selle koormuse. Arendajad saavad valida alusmudeli (nt Qwen, Llama, GPT-OSS), konfigureerida peenhäälestamise tehnika, näiteks RLVR, osutada oma andmetele ja määratleda tasufunktsiooni. SageMaker AI haldab seejärel kogu taustaprotsessi, alates arvutusressursside skaleerimisest kuni treeningfaaside ja hüperparameetrite häälestamise haldamiseni. See abstraktsioon võimaldab meeskondadel keskenduda andmekogumi kvaliteedile ja tasufunktsiooni disainile, mis on mudeli täiustamise tõelised mootorid. Ettevõtete jaoks tähendab see serverita lähenemine kiiremaid iteratsioone, väiksemaid kulusid ja madalamat läve arenenud LLM-i kohandamiseks. See on oluline muudatus neile, kes soovivad AI-d kõigile skaleerida, lihtsustades keerulisi suurte keelemudelite peenhäälestamise protsesse.

Miks RLVR sobib eriti hästi agendilisele tööriistakutsele

Kui rääkida AI agendi õpetamisest tööriistade usaldusväärseks kasutamiseks, ei ole kõik peenhäälestamise tehnikad võrdsed. Juhitud peenhäälestamine (SFT) nõuab hoolikalt märgistatud näiteid iga võimaliku käitumise kohta, mida mudel peaks näitama – tööriista kutsumine, selgituse küsimine või taotlusest keeldumine. SFT-ga seotud probleem on selle raskus üldistada otsustusprotsessi nende erinevate käitumiste vahel, sageli toimides hästi treeningu käigus nähtud mustrite puhul, kuid takerdudes uutes stsenaariumides.

Tugevdamisõpe kontrollitavate tasudega (RLVR) pakub dünaamilisemat ja tõhusamat lahendust. Erinevalt SFT-st töötab RLVR tagasiside silmusega:

Kandidaatide genereerimine: Iga viipe jaoks genereerib mudel mitu (nt kaheksa) potentsiaalset vastust.
Tasufunktsiooni hindamine: Eelnevalt määratletud tasufunktsioon hindab objektiivselt iga kandidaati, näidates selle kvaliteeti, õigsust ja soovitud käitumisele vastavust (nt kas see kutsus õiget tööriista õigete parameetritega?).
Poliitika värskendamine: Kasutades rühma suhtelise poliitika optimeerimist (GRPO), värskendatakse mudeli poliitikat, et tugevdada vastuseid, mis said genereeritud rühma keskmisest kõrgema skoori. See protsess juhib mudelit iteratiivselt optimaalsema käitumise poole.

See iteratiivne õppimine võimaldab mudelil mõista mitte ainult kuidas teostada konkreetset toimingut, vaid ka millal seda teostada. See õpib eristama nüansse olukordade vahel, kus tööriistakutse on sobiv, vaja on selgitust või keeldumine on parim tegevussuund. Kuna tööriistakutsel on loomulikult kontrollitav eesmärk – kas mudel kutsus õiget funktsiooni õigete parameetritega –, sobib see erakordselt hästi RLVR-i paradigmaga, muutes selle ideaalseks AI agentidele, mis nõuavad suurt usaldusväärsust. See meetod lahendab tõhusalt agentide kujundamise väljakutse viipete süstimisele vastupanu osutamiseks, tugevdades täpseid tegevusmustreid.

Kvaliteetsete treeningandmete ettevalmistamine RLVR-i jaoks

Iga peenhäälestamise, eriti RLVR-i, edu sõltub treeningandmete kvaliteedist ja terviklikkusest. Agendilise tööriistakutse puhul peab andmekogum õpetama mudelile rohkem kui lihtsalt õigeid API-kutseid; see peab hõlmama kogu vajalike agendi käitumiste spektrit.

Meie lähenemine hõlmas 1500 sünteetilise treeningnäite genereerimist, kasutades Kirot, Amazoni AI-toega IDE-d. Need näited hõlmasid viit erinevat tööriistaskeemati: get_weather_forecast, search_flights, translate_text, currency_convert, ja get_statistics. Kriitiliselt jaotati andmed kolme peamise agendi käitumise vahel, et tagada tasakaalustatud õppimine:

Käitumine	Kirjeldus	Protsent	Algandmete Näide
Täita	Kasutaja esitab kõik vajalikud parameetrid, mudel peaks kutsuma tööriista.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Selgitada	Kasutaja taotlusest puuduvad nõutavad parameetrid, mudel peaks küsima selgitust.	25%	`Ilmateabe pakkumiseks, palun täpsustage asukohta?`
Keelduda	Taotlus on kahjulik või väljaspool ulatust, mudel peaks viisakalt keelduma.	15%	`Vabandust, ma ei saa seda taotlust täita.`

Iga treeningnäide järgis JSONL-vormingut, sisaldades viipa (süsteemi instruktsioon ja kasutaja taotlus) ja algandmeid reward_model väljal, mille alusel tasufunktsioon hindab. Erinev sõnastus ametliku, juhusliku ja lühikese vahel parandas veelgi andmekogumi robustsust. Kuigi sünteetilised andmed pakuvad praktilist alguspunkti, saavad organisatsioonid, kellel on olemasolevad agendilised töövoogud, kasutada tegelikke kasutajate viipasid ja tööriistakutseid tootmispäevikutest, et saavutada veelgi kõrgem treeningkvaliteet. See andmete ettevalmistamine on kriitiline samm viipete inseneerias keerukate agendi käitumiste jaoks.

{
  "prompt": [
    {"role": "system", "content": "Sa oled abivalmis assistent. Tööriistade kasutamisel vasta järgmiselt: [...]"},
    {"role": "user", "content": "Hankige ilm San Franciscos"}
  ],
  "reward_model": {
    "ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "Sa oled abivalmis assistent. Tööriistade kasutamisel vasta järgmiselt: [...]"},
    {"role": "user", "content": "Hankige ilm"}
  ],
  "reward_model": {
    "ground_truth": "Ilmateabe pakkumiseks, kas te palun täpsustaksite asukohta?"
  }
}

Qwen 2.5 7B Instruct peenhäälestamine SageMaker AI-ga

Qwen 2.5 7B Instruct mudeli peenhäälestamise protsess Amazon SageMaker AI Studios on sujuv ja intuitiivne. Pärast vajalike eeltingimuste (AWS-i konto, IAM-roll, SageMaker AI domeen, S3-ämber) täitmist saavad kasutajad navigeerida SageMaker AI Studio jaotisesse Mudelid.

Sealt edasi, valides Qwen 2.5 7B Instruct ja valides Kohanda UI abil, avaneb spetsiaalne konfiguratsioonileht. See liides võimaldab:

Tehnika valik: Selgelt valida rippmenüüst Tugevdamisõpe kontrollitavate tasudega (RLVR).
Andmete sisend: Osutamine ettevalmistatud treeningandmetele, mis on salvestatud Amazon S3-ämbri.
Tasufunktsioon: Tieritud hindamismehhanismi konfigureerimine, mis määrab, kuidas kandidaatvastuseid hinnatakse algandmete suhtes.
Hüperparameetrite konfiguratsioon: Parameetrite, näiteks paketi suuruse, kohandamine, kuigi SageMaker AI käsitseb sageli optimaalseid seadeid automaatselt.

SageMaker AI toetab mitmekesist mudeliperekondade valikut, sealhulgas Amazon Nova, GPT-OSS, Llama, Qwen, ja DeepSeek, koos erinevate tehnikatega nagu juhitud peenhäälestamine (SFT), otsese eelistuse optimeerimine (DPO), RLVR ja tugevdamisõpe AI tagasiside (RLAIF) abil. Integreeritud MLflow jälgimine pakub nähtavust treening- ja valideerimismõõdikutele, lihtsustades jõudluse jälgimist ja iteratsiooni. See kasutuslihtsus kiirendab dramaatiliselt arendustsüklit arendajatele, kes ehitavad keerukaid github-agendilisi töövooge.

Hindamine ja juurutamise edu

Meie peenhäälestatud Qwen 2.5 7B Instruct mudeli efektiivsust hinnati rangelt varuandmetega, sealhulgas stsenaariumidega, mis hõlmasid täiesti seninägemata tööriistu – see on üldistamise jaoks kriitiline test. Tulemused olid veenvad: peenhäälestatud mudel saavutas märkimisväärse 57% paranemise tööriistakutsete tasus võrreldes baasmudeliga. See märkimisväärne hüpe jõudluses stsenaariumides, mida see treeningu ajal ei olnud kohanud, rõhutab RLVR-i võimsust õpetada mudelitele robustseid otsustusvõimeid tööriistainteraktsioonide jaoks.

See suurenenud usaldusväärsus tähendab otseselt suuremat usaldust ja kindlust AI agentide juurutamisel tootmiskeskkondadesse. Minimeerides tööriistade hallutsinatsioonide, valede parameetrite ja ebasobivate toimingute juhtumeid, saavad ettevõtted kasutada AI agente kriitilisemate ja tundlikumate ülesannete jaoks. SageMaker AI-ga, mis tegeleb mudeli juurutamise ja infrastruktuuri haldamise keerukusega, saavad arendajad sujuvalt liikuda peenhäälestamisest tootmisse, realiseerides oma agendiliste AI lahenduste kogu potentsiaali. See võimekus ühtib laiemaga agendilise AI opereerimise visiooniga tegeliku maailma mõju jaoks.

Kokkuvõttes pakub Amazon SageMaker AI serverita mudeli kohandamise ja RLVR-i robustsete õppimisvõimaluste kombinatsioon võimsat teed väga usaldusväärsete agendiliste tööriistakutse süsteemide loomiseks. See uuenduslik lähenemine kiirendab arendust, vähendab operatiivset koormust ja lõpuks pakub AI agente, mis toimivad enneolematu täpsuse ja usaldusväärsusega.

SageMaker AI: Agendilise tööriistakutse kiirendamine serverita kohandamisega