What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Ubrzavanje agentnog pozivanja alata uz poslužiteljsku prilagodbu

Agentna umjetna inteligencija (AI) revolucionirala je način na koji razmišljamo o automatiziranim zadacima, omogućujući sustavima donošenje odluka i interakciju sa svijetom putem specijaliziranih alata. Međutim, stvarna korisnost AI agenata u produkciji ovisi o njihovoj sposobnosti da pouzdano izvršavaju agentno pozivanje alata. To je način na koji agenti pretražuju baze podataka, pokreću složene radne tokove, dohvaćaju podatke u stvarnom vremenu i djeluju odlučno u ime korisnika. Nažalost, uobičajena prepreka široj primjeni bila je tendencija osnovnih velikih jezičnih modela (LLM-ova) da haluciniraju alate, prosljeđuju netočne parametre ili pokušavaju radnje kada je potrebno pojašnjenje. Takvi neuspjesi narušavaju povjerenje i značajno otežavaju produkcijsko implementiranje.

Amazon SageMaker AI rješava ove kritične izazove. Nudeći poslužiteljsku prilagodbu modela, razvojni programeri mogu fino ugoditi LLM-ove za robusno agentno pozivanje alata bez uobičajenih operativnih troškova. Središnja točka ove inovacije je Učenje potkrepljenjem s provjerljivim nagradama (RLVR), tehnika koja modelima omogućuje generiranje i provjeru vlastitih odgovora, učeći favorizirati uspješne interakcije s alatima. Ovaj članak detaljno opisuje kako SageMaker AI, koristeći RLVR, dramatično poboljšava pouzdanost agenta, pokazujući poboljšanje nagrade za pozivanje alata od 57% na neviđenim scenarijima s fino ugađenim modelom Qwen 2.5 7B Instruct.

Obećanja i opasnosti agentnog pozivanja alata

Koncept AI agenata koji komuniciraju s vanjskim sustavima putem alata kamen je temeljac naprednih AI aplikacija. Zamislite agenta koji može rezervirati letove, sažeti dokumente iz baze podataka ili čak izvršiti kod na temelju upita prirodnog jezika. Upravo tu funkcionalnost omogućuje agentno pozivanje alata. Ipak, put do pouzdane upotrebe alata prepun je izazova.

Osnovni LLM-ovi, iako moćni u generiranju jezika, često nemaju nijansirano razumijevanje potrebno za precizno pozivanje alata. Mogli bi pretpostaviti alat koji ne postoji, pogrešno protumačiti korisnikovu namjeru što dovodi do netočnih vrijednosti parametara ili ne prepoznati kada nedostaju kritične informacije. Ove pogreške dovode do frustrirajućih korisničkih iskustava i čine implementaciju na razini poduzeća rizičnom. Za organizacije koje žele učinkovito operacionalizirati AI agente, osiguravanje predvidljivog i pouzdanog izvršavanja alata je najvažnije. Ulozi su visoki, jer pouzdani agenti mogu otključati neviđene razine automatizacije i učinkovitosti, dok nepouzdani mogu dovesti do skupih pogrešaka i nezadovoljstva korisnika. Zato je robusna optimizacija modela za agentne radne tokove ključna, a zadatak je pojednostavljen platformama poput SageMaker AI.

Prilagodba modela bez poslužitelja: Prednost SageMaker AI

Tradicionalni pristup poboljšanju performansi LLM-a često uključuje značajno upravljanje infrastrukturom – od nabave GPU-a i orkestracije memorije do složene infrastrukture nagrađivanja i kontrolnih točaka za učenje potkrepljenjem. Ovi zadaci uvode znatan operativni trošak, preusmjeravajući vrijedne resurse razvojnih programera od fokusiranja na ključni problem: pročišćavanje ponašanja modela.

Amazon SageMaker AI-ova prilagodba modela bez poslužitelja uklanja ovaj teret. Razvojni programeri mogu odabrati temeljni model (npr. Qwen, Llama, GPT-OSS), konfigurirati tehniku finog ugađanja poput RLVR-a, uputiti na svoje podatke i definirati funkciju nagrađivanja. SageMaker AI zatim upravlja cijelim pozadinskim procesom, od skaliranja računalnih resursa do upravljanja fazama obuke i ugađanja hiperparametara. Ova apstrakcija omogućuje timovima da se usredotoče na kvalitetu skupa podataka i dizajn funkcije nagrađivanja, što su pravi pokretači poboljšanja modela. Za poduzeća, ovaj pristup bez poslužitelja prevodi se u brže iteracijske cikluse, smanjene troškove i nižu prepreku za ulazak u naprednu prilagodbu LLM-ova. To mijenja igru za one koji žele skalirati AI za sve pojednostavljivanjem složenih procesa finog ugađanja LLM-ova.

Zašto je RLVR izvrstan za agentno pozivanje alata

Kada je riječ o podučavanju AI agenta da pouzdano koristi alate, nisu sve tehnike finog ugađanja jednake. Nadzirano fino ugađanje (SFT) zahtijeva pomno označene primjere za svako moguće ponašanje koje model treba pokazati – pozivanje alata, traženje pojašnjenja ili odbijanje zahtjeva. Izazov kod SFT-a je njegova borba za generaliziranje procesa donošenja odluka između ovih različitih ponašanja, često dobro funkcionirajući na obrascima viđenim tijekom obuke, ali posrćući u novim scenarijima.

Učenje potkrepljenjem s provjerljivim nagradama (RLVR) nudi dinamičnije i učinkovitije rješenje. Za razliku od SFT-a, RLVR djeluje na povratnoj petlji:

Generiranje kandidata: Za svaki upit, model generira više (npr. osam) potencijalnih odgovora.
Evaluacija funkcije nagrađivanja: Predefinirana funkcija nagrađivanja objektivno boduje svakog kandidata, ukazujući na njegovu kvalitetu, ispravnost i pridržavanje željenog ponašanja (npr. je li pozvao pravi alat s ispravnim parametrima?).
Ažuriranje politike: Koristeći Optimizaciju grupne relativne politike (GRPO), politika modela se ažurira kako bi pojačala odgovore koji su postigli rezultat iznad prosjeka generirane grupe. Ovaj proces iterativno vodi model prema optimalnijem ponašanju.

Ovo iterativno učenje omogućuje modelu da razumije ne samo kako izvršiti određenu radnju, već i kada je izvršiti. Uči nijanse razlikovanja između situacija kada je pozivanje alata prikladno, kada je potrebno pojašnjenje ili kada je odbijanje najbolji tijek radnje. Budući da pozivanje alata ima prirodno provjerljiv cilj — je li model pozvao ispravnu funkciju s ispravnim parametrima — iznimno se dobro uklapa u RLVR paradigmu, čineći ga idealnim za AI agente koji zahtijevaju visoku pouzdanost. Ova metoda učinkovito rješava izazov dizajniranja agenata da se odupru prompt injekciji pojačavanjem preciznih obrazaca djelovanja.

Priprema visokokvalitetnih podataka za obuku za RLVR

Uspjeh svakog napora finog ugađanja, posebno s RLVR-om, ovisi o kvaliteti i sveobuhvatnosti podataka za obuku. Za agentno pozivanje alata, skup podataka mora naučiti model više od samo ispravnih API poziva; mora obuhvatiti cijeli spektar potrebnih ponašanja agenta.

Naš pristup uključivao je generiranje 1.500 sintetičkih primjera obuke pomoću Kiro-a, Amazonovog IDE-a pokretanog umjetnom inteligencijom. Ti su primjeri obuhvaćali pet različitih shema alata: get_weather_forecast, search_flights, translate_text, currency_convert i get_statistics. Ključno je da su podaci raspoređeni kroz tri primarna ponašanja agenta kako bi se osiguralo uravnoteženo učenje:

Ponašanje	Opis	Postotak	Primjer istinske vrijednosti
Izvrši	Korisnik daje sve potrebne parametre, model treba pozvati alat.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Pojašnjenje	U zahtjevu korisnika nedostaju obavezni parametri, model bi trebao tražiti pojašnjenje.	25%	`Kako bih vam pružio informacije o vremenu, možete li molim vas navesti lokaciju?`
Odbij	Zahtjev je štetan ili izvan opsega, model bi trebao pristojno odbiti.	15%	`Žao mi je, ne mogu ispuniti taj zahtjev.`

Svaki primjer obuke slijedio je JSONL format, uključujući upit (sustavne upute i korisnički zahtjev) i ground_truth u polju reward_model protiv kojeg funkcija nagrađivanja boduje. Različito formuliranje između formalnog, neformalnog i sažetog dodatno je poboljšalo robusnost skupa podataka. Dok sintetički podaci pružaju praktičnu početnu točku, organizacije s postojećim agentnim radnim tokovima mogu iskoristiti stvarne korisničke upite i pozive alata iz produkcijskih logova kako bi postigle još višu kvalitetu obuke. Ova priprema podataka kritičan je korak u inženjeringu upita za složena ponašanja agenta.

{
  "prompt": [
    {"role": "system", "content": "Vi ste koristan asistent. Kada koristite alate, odgovorite sa: [...]"},
    {"role": "user", "content": "Dohvati vrijeme za San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "Vi ste koristan asistent. Kada koristite alate, odgovorite sa: [...]"},
    {"role": "user", "content": "Dohvati vrijeme"}
  ],
  "reward_model": {
    "ground_truth": "Kako bih vam pružio informacije o vremenu, možete li molim vas navesti lokaciju?"
  }
}

Fino ugađanje Qwen 2.5 7B Instruct s SageMaker AI

Proces finog ugađanja modela poput Qwen 2.5 7B Instruct unutar Amazon SageMaker AI Studija je pojednostavljen i intuitivan. Nakon što su ispunjeni potrebni preduvjeti (AWS račun, IAM uloga, SageMaker AI domena, S3 bucket), korisnici mogu navigirati do odjeljka Models (Modeli) u SageMaker AI Studiju.

Odatle, odabirom Qwen 2.5 7B Instruct i odabirom Prilagodi putem korisničkog sučelja otvara se namjenska stranica za konfiguraciju. Ovo sučelje omogućuje:

Odabir tehnike: Eksplicitno odabiranje Učenja potkrepljenjem s provjerljivim nagradama (RLVR) iz padajućeg izbornika.
Unos podataka: Usmjeravanje na pripremljene podatke za obuku pohranjene u Amazon S3 'bucketu'.
Funkcija nagrađivanja: Konfiguriranje višeslojnog mehanizma bodovanja koji definira kako se kandidatni odgovori evaluiraju u odnosu na ground_truth.
Konfiguracija hiperparametara: Podešavanje parametara poput veličine paketa (batch size), iako SageMaker AI često automatski upravlja optimalnim postavkama.

SageMaker AI podržava raznolik raspon obitelji modela, uključujući Amazon Nova, GPT-OSS, Llama, Qwen i DeepSeek, zajedno s različitim tehnikama poput nadziranog finog ugađanja (SFT), optimizacije direktne preferencije (DPO), RLVR i učenja potkrepljenjem iz povratnih informacija AI (RLAIF). Integrirano MLflow praćenje pruža uvid u metrike obuke i validacije, pojednostavljujući praćenje performansi i iteraciju. Ova lakoća korištenja dramatično ubrzava životni ciklus razvoja za programere koji grade sofisticirane github-agentne-radne-tokove.

Evaluacija i uspjeh implementacije

Učinkovitost našeg fino ugađenog modela Qwen 2.5 7B Instruct rigorozno je evaluirana na zadržanim podacima, uključujući scenarije s potpuno neviđenim alatima—što je ključan test za generalizaciju. Rezultati su bili uvjerljivi: fino ugađeni model postigao je izvanredno poboljšanje od 57% u nagradi za pozivanje alata u usporedbi s osnovnim modelom. Ovaj značajan skok u performansama na scenarijima s kojima se nije susreo tijekom obuke podvlači snagu RLVR-a u podučavanju modela robusnim sposobnostima donošenja odluka za interakciju s alatima.

Ova poboljšana pouzdanost izravno se prevodi u veće povjerenje u implementaciju AI agenata u produkcijska okruženja. Minimiziranjem slučajeva 'haluciniranja' alata, netočnih parametara i neprikladnih radnji, poduzeća mogu iskoristiti AI agente za kritičnije i osjetljivije zadatke. S SageMaker AI koji rješava složenosti implementacije modela i upravljanja infrastrukturom, razvojni programeri mogu neometano prelaziti s finog ugađanja na produkciju, ostvarujući puni potencijal svojih agentnih AI rješenja. Ova se sposobnost usklađuje sa širom vizijom operacionalizacije agentne AI za stvarni utjecaj.

Ukratko, kombinacija prilagodbe modela bez poslužitelja Amazon SageMaker AI i robusnih mogućnosti učenja RLVR-a pruža snažan put do izgradnje vrlo pouzdanih sustava agentnog pozivanja alata. Ovaj inovativni pristup ubrzava razvoj, smanjuje operativno opterećenje i u konačnici isporučuje AI agente koji rade s neviđenom točnošću i pouzdanošću.

SageMaker AI: Ubrzavanje agentnog pozivanja alata uz poslužiteljsku prilagodbu

SageMaker AI: Ubrzavanje agentnog pozivanja alata uz poslužiteljsku prilagodbu

Obećanja i opasnosti agentnog pozivanja alata

Prilagodba modela bez poslužitelja: Prednost SageMaker AI

Zašto je RLVR izvrstan za agentno pozivanje alata

Priprema visokokvalitetnih podataka za obuku za RLVR

Fino ugađanje Qwen 2.5 7B Instruct s SageMaker AI

Evaluacija i uspjeh implementacije

Često postavljana pitanja

Budite u toku