What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Accelerering af agent-værktøjskald med serverløs modeltilpasning

Agent-AI har revolutioneret vores måde at tænke på automatiserede opgaver, hvilket gør systemer i stand til at træffe beslutninger og interagere med verden gennem specialiserede værktøjer. Den sande nytteværdi af AI-agenter i produktion afhænger dog af deres evne til pålideligt at udføre agent-værktøjskald. Dette er, hvordan agenter forespørger databaser, udløser komplekse arbejdsgange, henter realtidsdata og handler beslutsomt på en brugers vegne. Desværre har en almindelig hindring for bred adoption været tendensen hos grundlæggende store sprogmodeller (LLM'er) til at hallucinere værktøjer, videregive ukorrekte parametre eller forsøge handlinger, når afklaring er nødvendig. Sådanne fejl underminerer tilliden og hæmmer betydeligt produktionsimplementering.

Amazon SageMaker AI tager nu fat på at løse disse kritiske udfordringer. Ved at tilbyde serverløs modeltilpasning kan udviklere finjustere LLM'er til robuste agent-værktøjskald uden den typiske operationelle overhead. Centralt for denne innovation er Forstærkningslæring med Verificerbare Belønninger (RLVR), en teknik, der giver modeller mulighed for at generere og validere deres egne svar, og lærer at foretrække vellykkede værktøjsinteraktioner. Dette indlæg dykker ned i, hvordan SageMaker AI, ved at udnytte RLVR, dramatisk forbedrer agentpålideligheden og viser en 57% forbedring i belønning for værktøjskald i usete scenarier med en finjusteret Qwen 2.5 7B Instruct-model.

Agent-værktøjskalds løfter og faldgruber

Konceptet med AI-agenter, der interagerer med eksterne systemer via værktøjer, er en hjørnesten i avancerede AI-applikationer. Forestil dig en agent, der kan booke flyrejser, opsummere dokumenter fra en database eller endda udføre kode baseret på en naturlig sprogprompt. Denne funktionalitet er præcis, hvad agent-værktøjskald muliggør. Alligevel er vejen til pålidelig værktøjsbrug fyldt med udfordringer.

Grundlæggende LLM'er, selvom de er kraftfulde inden for sproggenerering, mangler ofte den nuancerede forståelse, der kræves for præcis værktøjsaktivering. De kan udlede et værktøj, der ikke eksisterer, misfortolke brugerens intention, hvilket fører til ukorrekte parameterværdier, eller undlade at genkende, når kritisk information mangler. Disse fejltrin fører til frustrerende brugeroplevelser og gør implementering på virksomhedsniveau risikabel. For organisationer, der ønsker at operationalisere AI-agenter effektivt, er det altafgørende at sikre forudsigelig og troværdig værktøjseksekvering. Indsatserne er høje, da pålidelige agenter kan frigøre hidtil usete niveauer af automatisering og effektivitet, mens upålidelige kan føre til kostbare fejl og utilfredshed hos brugerne. Det er derfor, robust modeloptimering for agent-arbejdsgange er afgørende, en opgave der gøres enklere med platforme som SageMaker AI.

Serverløs modeltilpasning: SageMaker AI's fordel

Den traditionelle tilgang til forbedring af LLM-ydeevne involverer ofte betydelig infrastrukturopgave – fra GPU-indkøb og hukommelsesorkestrering til kompleks belønningsinfrastruktur og checkpointing for forstærkningslæring. Disse opgaver introducerer betydelig operationel overhead, hvilket afleder værdifulde udviklerressourcer fra at fokusere på kerneproblemet: at forfine modeladfærd.

Amazon SageMaker AI's serverløse modeltilpasning fjerner denne byrde. Udviklere kan vælge en grundmodel (f.eks. Qwen, Llama, GPT-OSS), konfigurere en finjusteringsteknik som RLVR, pege på deres data og definere en belønningsfunktion. SageMaker AI administrerer derefter hele backend-processen, fra skalering af beregningsressourcer til styring af træningsfaser og hyperparameter-tuning. Denne abstraktion gør det muligt for teams at koncentrere sig om datasætkvalitet og design af belønningsfunktioner, som er de virkelige drivkræfter bag modelforbedring. For virksomheder omsættes denne serverløse tilgang til hurtigere iterationscyklusser, reducerede omkostninger og en lavere adgangsbarriere for avanceret LLM-tilpasning. Det er en game-changer for dem, der ønsker at skalere AI for alle ved at forenkle komplekse processer for finjustering af LLM'er.

Hvorfor RLVR udmærker sig ved agent-værktøjskald

Når det kommer til at lære en AI-agent at bruge værktøjer pålideligt, er ikke alle finjusteringsteknikker lige effektive. Supervised Fine-Tuning (SFT) kræver omhyggeligt mærkede eksempler for enhver mulig adfærd, en model skal udvise – at kalde et værktøj, bede om afklaring eller afvise en anmodning. Udfordringen med SFT er dens kamp for at generalisere beslutningsprocessen mellem disse forskellige adfærd, ofte præsterer den godt på mønstre set under træning, men svigter i nye scenarier.

Forstærkningslæring med Verificerbare Belønninger (RLVR) tilbyder en mere dynamisk og effektiv løsning. I modsætning til SFT opererer RLVR med en feedbackløkke:

Kandidatgenerering: For hver prompt genererer modellen flere (f.eks. otte) potentielle svar.
Evaluering af belønningsfunktion: En foruddefineret belønningsfunktion scorer objektivt hver kandidat og angiver dens kvalitet, korrekthed og overholdelse af den ønskede adfærd (f.eks. om den kaldte det rigtige værktøj med de korrekte parametre?).
Politikopdatering: Ved hjælp af Group Relative Policy Optimization (GRPO) opdateres modellens politik for at forstærke svar, der scorede over gennemsnittet af den genererede gruppe. Denne proces guider iterativt modellen mod mere optimal adfærd.

Denne iterative læring gør modellen i stand til at forstå ikke kun hvordan man udfører en specifik handling, men hvornår man skal udføre den. Den lærer nuancerne i at skelne mellem situationer, hvor et værktøjskald er passende, afklaring er nødvendig, eller afvisning er den bedste handling. Fordi værktøjskald har et naturligt verificerbart mål – om modellen kaldte den rigtige funktion med de rigtige parametre – passer det usædvanligt godt til RLVR-paradigmet, hvilket gør det ideelt for AI-agenter, der kræver høj pålidelighed. Denne metode adresserer effektivt udfordringen med design af agenter til at modstå prompt injection ved at forstærke præcise handlingsmønstre.

Forberedelse af træningsdata af høj kvalitet til RLVR

Succesen af enhver finjusteringsindsats, især med RLVR, afhænger af træningsdataenes kvalitet og omfattende karakter. For agent-værktøjskald skal datasættet lære modellen mere end blot korrekte API-kald; det skal omfatte hele spektret af nødvendige agentadfærd.

Vores tilgang involverede generering af 1.500 syntetiske træningseksempler ved hjælp af Kiro, Amazons AI-drevne IDE. Disse eksempler dækkede fem forskellige værktøjsskemata: get_weather_forecast, search_flights, translate_text, currency_convert og get_statistics. Afgørende var, at data blev fordelt på tværs af tre primære agentadfærd for at sikre afbalanceret læring:

Adfærd	Beskrivelse	Procentdel	Ground Truth Eksempel
Udfør	Brugeren leverer alle nødvendige parametre, modellen skal kalde et værktøj.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Afklar	Brugerens anmodning mangler nødvendige parametre, modellen skal bede om afklaring.	25%	`To provide you with the weather information, could you please specify the location?`
Afvis	Anmodningen er skadelig eller uden for omfanget, modellen bør høfligt afvise.	15%	`I'm sorry, I cannot fulfill that request.`

Hvert træningseksempel fulgte et JSONL-format, inklusive en prompt (systeminstruktion og brugeranmodning) og en ground_truth i reward_model-feltet, som belønningsfunktionen scorer imod. Varierende formuleringer mellem formel, uformel og kortfattet forbedrede yderligere datasættets robusthed. Mens syntetiske data giver et praktisk udgangspunkt, kan organisationer med eksisterende agent-arbejdsgange udnytte reelle brugerprompts og værktøjskald fra produktionslogfiler for at opnå endnu højere træningskvalitet. Denne dataforberedelse er et kritisk skridt i prompt engineering for kompleks agentadfærd.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

Finjustering af Qwen 2.5 7B Instruct med SageMaker AI

Processen med at finjustere en model som Qwen 2.5 7B Instruct inden for Amazon SageMaker AI Studio er strømlinet og intuitiv. Efter at have sikret, at de nødvendige forudsætninger (AWS-konto, IAM-rolle, SageMaker AI-domæne, S3-bucket) er opfyldt, kan brugere navigere til sektionen Modeller i SageMaker AI Studio.

Derfra åbner et valg af Qwen 2.5 7B Instruct og derefter Tilpas med UI en dedikeret konfigurationsside. Denne grænseflade giver mulighed for:

Valg af teknik: Udtrykkeligt valg af Forstærkningslæring med Verificerbare Belønninger (RLVR) fra rullemenuen.
Datainput: Pegende på de forberedte træningsdata, der er gemt i en Amazon S3-bucket.
Belønningsfunktion: Konfiguration af den trinvise scoringsmekanisme, der definerer, hvordan kandidatsvar evalueres mod ground_truth.
Hyperparameterkonfiguration: Justering af parametre som batchstørrelse, selvom SageMaker AI ofte håndterer optimale indstillinger automatisk.

SageMaker AI understøtter en bred vifte af modelfamilier, herunder Amazon Nova, GPT-OSS, Llama, Qwen og DeepSeek, samt forskellige teknikker som Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR og Reinforcement Learning from AI Feedback (RLAIF). Integreret MLflow-sporing giver indsigt i trænings- og valideringsmålinger, hvilket forenkler ydeevneovervågning og iteration. Denne brugervenlighed accelererer dramatisk udviklingslivscyklussen for udviklere, der bygger sofistikerede github-agentic-workflows.

Evaluering og implementeringssucces

Effektiviteten af vores finjusterede Qwen 2.5 7B Instruct-model blev grundigt evalueret på tilbageholdt data, inklusive scenarier med helt usete værktøjer – en afgørende test for generalisering. Resultaterne var overbevisende: den finjusterede model opnåede en bemærkelsesværdig 57% forbedring i belønning for værktøjskald sammenlignet med grundmodellen. Dette betydelige spring i ydeevne på scenarier, den ikke havde mødt under træning, understreger kraften i RLVR til at lære modeller robuste beslutningstagningsevner for værktøjsinteraktion.

Denne forbedrede pålidelighed omsættes direkte til højere tillid og selvsikkerhed ved implementering af AI-agenter i produktionsmiljøer. Ved at minimere tilfælde af værktøjshallucinationer, ukorrekte parametre og upassende handlinger kan virksomheder udnytte AI-agenter til mere kritiske og følsomme opgaver. Med SageMaker AI, der håndterer kompleksiteten ved modelimplementering og infrastrukturstyring, kan udviklere problemfrit bevæge sig fra finjustering til produktion og realisere det fulde potentiale af deres agent-AI-løsninger. Denne kapacitet stemmer overens med den bredere vision om operationalisering af agent-AI for reel indvirkning.

Sammenfattende giver kombinationen af Amazon SageMaker AI's serverløse modeltilpasning og RLVR's robuste læringskapaciteter en kraftfuld vej til at bygge yderst pålidelige agent-værktøjskald-systemer. Denne innovative tilgang accelererer udvikling, reducerer operationel byrde og leverer i sidste ende AI-agenter, der yder med hidtil uset nøjagtighed og pålidelighed.

SageMaker AI: Accelerering af agent-værktøjskald med serverløs tilpasning