What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Påskyndar agentisk verktygsanropning med serverlös modellanpassning

Agentisk AI har revolutionerat hur vi tänker kring automatiserade uppgifter, vilket gör det möjligt för system att fatta beslut och interagera med världen genom specialiserade verktyg. Den verkliga nyttan med AI-agenter i produktion beror dock på deras förmåga att tillförlitligt utföra agentisk verktygsanropning. Det är så agenter frågar databaser, utlöser komplexa arbetsflöden, hämtar realtidsdata och agerar beslutsamt på en användares vägnar. Tyvärr har en vanlig stötesten för bred antagning varit tendensen hos grundläggande stora språkmodeller (LLM:er) att hallucinera verktyg, skicka felaktiga parametrar eller försöka utföra åtgärder när förtydligande behövs. Sådana misslyckanden urholkar förtroendet och försvårar avsevärt produktionsdriftsättning.

Amazon SageMaker AI tar sig an dessa kritiska utmaningar. Genom att erbjuda serverlös modellanpassning kan utvecklare finjustera LLM:er för robust agentisk verktygsanropning utan den typiska operativa bördan. Centralt för denna innovation är förstärkningsinlärning med verifierbara belöningar (RLVR), en teknik som ger modeller möjlighet att generera och validera sina egna svar, och lära sig att föredra framgångsrika verktygsinteraktioner. Detta inlägg går igenom hur SageMaker AI, med hjälp av RLVR, dramatiskt förbättrar agenternas tillförlitlighet och visar en 57-procentig förbättring i verktygsanropsbelöning i osedda scenarier med en finjusterad Qwen 2.5 7B Instruct-modell.

Löftet och farorna med agentisk verktygsanropning

Konceptet med AI-agenter som interagerar med externa system via verktyg är en hörnsten i avancerade AI-applikationer. Föreställ dig en agent som kan boka flyg, sammanfatta dokument från en databas eller till och med exekvera kod baserat på en prompt i naturligt språk. Denna funktionalitet är just vad agentisk verktygsanropning möjliggör. Ändå är vägen till tillförlitlig verktygsanvändning fylld av utmaningar.

Grundläggande LLM:er, trots att de är kraftfulla inom språkgenerering, saknar ofta den nyanserade förståelse som krävs för precis verktygsinvokation. De kan inferera ett verktyg som inte existerar, feltolka användarens avsikt vilket leder till felaktiga parametervärden, eller misslyckas med att känna igen när kritisk information saknas. Dessa misstag leder till frustrerande användarupplevelser och gör driftsättning på företagsnivå riskabel. För organisationer som vill operationalisera AI-agenter effektivt är det avgörande att säkerställa förutsägbar och pålitlig verktygsexekvering. Insatserna är höga, eftersom pålitliga agenter kan låsa upp oöverträffade nivåer av automatisering och effektivitet, medan opålitliga agenter kan leda till kostsamma fel och användarmissnöje. Det är därför robust modelloptimering för agentiska arbetsflöden är avgörande, en uppgift som förenklas med plattformar som SageMaker AI.

Serverlös modellanpassning: SageMaker AI:s fördel

Den traditionella metoden för att förbättra LLM-prestanda involverar ofta omfattande infrastrukturhantering – från GPU-anskaffning och minnesorkestrering till komplex belöningsinfrastruktur och checkpointing för förstärkningsinlärning. Dessa uppgifter medför betydande operativ börda, vilket avleder värdefulla utvecklingsresurser från att fokusera på kärnproblemet: att förfina modellbeteendet.

Amazon SageMaker AI:s serverlösa modellanpassning avlägsnar denna börda. Utvecklare kan välja en grundmodell (t.ex. Qwen, Llama, GPT-OSS), konfigurera en finjusteringsteknik som RLVR, peka på sina data och definiera en belöningsfunktion. SageMaker AI hanterar sedan hela backend-processen, från skalning av beräkningsresurser till hantering av träningsfaser och hyperparameter-tuning. Denna abstraktion gör att team kan koncentrera sig på datakvalitet och design av belöningsfunktioner, vilket är de verkliga drivkrafterna för modellförbättring. För företag innebär detta serverlösa tillvägagångssätt snabbare iterationscykler, minskade kostnader och en lägre tröskel för avancerad LLM-anpassning. Det är en game-changer för dem som vill skala AI för alla genom att förenkla komplexa finjustering av LLM:er-processer.

Varför RLVR utmärker sig för agentisk verktygsanropning

När det gäller att lära en AI-agent att tillförlitligt använda verktyg är inte alla finjusteringstekniker likvärdiga. Övervakad finjustering (SFT) kräver noggrant märkta exempel för varje möjligt beteende som en modell ska uppvisa – att anropa ett verktyg, be om förtydligande eller neka en begäran. Utmaningen med SFT är dess svårighet att generalisera beslutsfattandeprocessen mellan dessa distinkta beteenden, vilket ofta leder till att den presterar bra på mönster som setts under träning men vacklar i nya scenarier.

Förstärkningsinlärning med verifierbara belöningar (RLVR) erbjuder en mer dynamisk och effektiv lösning. Till skillnad från SFT, fungerar RLVR med en feedbackloop:

Kandidatgenerering: För varje prompt genererar modellen flera (t.ex. åtta) potentiella svar.
Belöningsfunktionsutvärdering: En fördefinierad belöningsfunktion poängsätter objektivt varje kandidat, vilket indikerar dess kvalitet, korrekthet och följsamhet till önskat beteende (t.ex. anropade den rätt verktyg med rätt parametrar?).
Policyuppdatering: Med hjälp av Group Relative Policy Optimization (GRPO) uppdateras modellens policy för att förstärka svar som fick poäng över genomsnittet för den genererade gruppen. Denna process styr iterativt modellen mot mer optimalt beteende.

Denna iterativa inlärning gör det möjligt för modellen att förstå inte bara hur man utför en specifik åtgärd, utan när man ska utföra den. Den lär sig nyanserna i att skilja mellan situationer där ett verktygsanrop är lämpligt, förtydligande behövs, eller avslag är det bästa tillvägagångssättet. Eftersom verktygsanropning har ett naturligt verifierbart mål – om modellen anropade rätt funktion med rätt parametrar – passar det exceptionellt bra med RLVR-paradigmet, vilket gör det idealiskt för AI-agenter som kräver hög tillförlitlighet. Denna metod hanterar effektivt utmaningen att utforma agenter för att motstå prompt-injektion genom att förstärka precisa åtgärdsmönster.

Förbereda högkvalitativa träningsdata för RLVR

Framgången med all finjusteringsinsats, särskilt med RLVR, beror på kvaliteten och omfattningen av träningsdata. För agentisk verktygsanropning måste datamängden lära modellen mer än bara korrekta API-anrop; den måste omfatta hela spektrumet av nödvändiga agentbeteenden.

Vår strategi innebar att generera 1 500 syntetiska tränings exempel med hjälp av Kiro, Amazons AI-drivna IDE. Dessa exempel täckte fem distinkta verktygsscheman: get_weather_forecast, search_flights, translate_text, currency_convert och get_statistics. Avgörande var att data distribuerades över tre primära agentbeteenden för att säkerställa balanserad inlärning:

Beteende	Beskrivning	Procentandel	Sanningsexempel
Utföra	Användaren tillhandahåller alla nödvändiga parametrar, modellen ska anropa ett verktyg.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Klargöra	Användarens begäran saknar nödvändiga parametrar, modellen ska be om förtydligande.	25%	`To provide you with the weather information, could you please specify the location?`
Neka	Begäran är skadlig eller utanför räckvidden, modellen ska artigt neka.	15%	`I'm sorry, I cannot fulfill that request.`

Varje tränings exempel följde ett JSONL-format, inklusive en prompt (systeminstruktion och användarbegäran) och en ground_truth i reward_model-fältet som belöningsfunktionen poängsätter mot. Varierande formuleringar mellan formell, avslappnad och kortfattad språkstil förbättrade ytterligare datamängdens robusthet. Medan syntetisk data ger en praktisk utgångspunkt, kan organisationer med befintliga agentiska arbetsflöden utnyttja verkliga användarprompter och verktygsanrop från produktionsloggar för att uppnå ännu högre träningskvalitet. Denna dataförberedelse är ett kritiskt steg i prompt-teknik för komplexa agentbeteenden.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

Finjustera Qwen 2.5 7B Instruct med SageMaker AI

Processen att finjustera en modell som Qwen 2.5 7B Instruct inom Amazon SageMaker AI Studio är strömlinjeformad och intuitiv. Efter att ha säkerställt att de nödvändiga förutsättningarna (AWS-konto, IAM-roll, SageMaker AI-domän, S3-bucket) är uppfyllda, kan användare navigera till avsnittet Modeller i SageMaker AI Studio.

Därifrån, genom att välja Qwen 2.5 7B Instruct och välja Anpassa med UI, öppnas en dedikerad konfigurationssida. Detta gränssnitt tillåter:

Teknikval: Att uttryckligen välja Förstärkningsinlärning med verifierbara belöningar (RLVR) från rullgardinsmenyn.
Datainmatning: Att peka på de förberedda träningsdata som lagras i en Amazon S3-bucket.
Belöningsfunktion: Konfigurera den nivåindelade poängmekanismen som definierar hur kandidatsvar utvärderas mot ground_truth.
Hyperparameterkonfiguration: Justering av parametrar som batchstorlek, även om SageMaker AI ofta hanterar optimala inställningar automatiskt.

SageMaker AI stöder ett brett utbud av modellfamiljer, inklusive Amazon Nova, GPT-OSS, Llama, Qwen och DeepSeek, tillsammans med olika tekniker som övervakad finjustering (SFT), direkt preferensoptimering (DPO), RLVR och förstärkningsinlärning från AI-feedback (RLAIF). Integrerad MLflow-spårning ger insyn i tränings- och valideringsmått, vilket förenklar prestandaövervakning och iteration. Denna användarvänlighet påskyndar dramatiskt utvecklingslivscykeln för utvecklare som bygger sofistikerade github-agentiska-arbetsflöden.

Utvärdering och driftsättningsframgång

Effektiviteten hos vår finjusterade Qwen 2.5 7B Instruct-modell utvärderades rigoröst på reserverade data, inklusive scenarier med helt osedda verktyg – ett avgörande test för generalisering. Resultaten var övertygande: den finjusterade modellen uppnådde en anmärkningsvärd 57% förbättring i belöning för verktygsanrop jämfört med basmodellen. Detta betydande framsteg i prestanda på scenarier den inte hade stött på under träningen understryker kraften i RLVR när det gäller att lära modeller robusta beslutsfattningsförmågor för verktygsinteraktion.

Denna förbättrade tillförlitlighet översätts direkt till ökat förtroende vid driftsättning av AI-agenter i produktionsmiljöer. Genom att minimera fall av verktygshallucinationer, felaktiga parametrar och olämpliga åtgärder kan företag utnyttja AI-agenter för mer kritiska och känsliga uppgifter. Med SageMaker AI som hanterar komplexiteten kring modellutplacering och infrastrukturhantering, kan utvecklare sömlöst gå från finjustering till produktion och förverkliga den fulla potentialen hos sina agentiska AI-lösningar. Denna förmåga överensstämmer med den bredare visionen om att operationalisera agentisk AI för verklig påverkan.

Sammanfattningsvis ger kombinationen av Amazon SageMaker AI:s serverlösa modellanpassning och de robusta inlärningsfunktionerna hos RLVR en kraftfull väg till att bygga mycket tillförlitliga system för agentisk verktygsanropning. Detta innovativa tillvägagångssätt påskyndar utvecklingen, minskar den operativa bördan och levererar i slutändan AI-agenter som presterar med oöverträffad noggrannhet och tillförlitlighet.

SageMaker AI: Påskyndar agentisk verktygsanropning med serverlös anpassning