What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Agentic Tool Calling Versnellen met Serverloze Modeloptimalisatie

Agentic AI heeft een revolutie teweeggebracht in de manier waarop we denken over geautomatiseerde taken, door systemen in staat te stellen beslissingen te nemen en te interageren met de wereld via gespecialiseerde tools. Echter, de ware bruikbaarheid van AI-agenten in productie hangt af van hun vermogen om betrouwbaar agentic tool calling uit te voeren. Dit is hoe agenten databases bevragen, complexe workflows activeren, realtime gegevens ophalen en daadkrachtig handelen namens een gebruiker. Helaas is een veelvoorkomende belemmering voor brede adoptie de neiging van basis grote taalmodellen (LLM's) om tools te hallucineren, incorrecte parameters door te geven, of acties te proberen wanneer om opheldering moet worden gevraagd. Dergelijke fouten ondermijnen het vertrouwen en belemmeren de implementatie in productie aanzienlijk.

Amazon SageMaker AI is bezig deze kritieke uitdagingen op te lossen. Door serverloze modeloptimalisatie aan te bieden, kunnen ontwikkelaars LLM's fine-tunen voor robuuste agentic tool calling zonder de typische operationele overhead. Centraal in deze innovatie staat Reinforcement Learning with Verifiable Rewards (RLVR), een techniek die modellen in staat stelt om hun eigen antwoorden te genereren en te valideren, waarbij ze leren om succesvolle tool-interacties te bevoordelen. Dit bericht gaat dieper in op hoe SageMaker AI, gebruikmakend van RLVR, de betrouwbaarheid van agenten drastisch verbetert, door een verbetering van 57% in 'tool call reward' te tonen in ongeziene scenario's met een fine-tuned Qwen 2.5 7B Instruct model.

De Belofte en Valkuilen van Agentic Tool Calling

Het concept van AI-agenten die via tools interageren met externe systemen is een hoeksteen van geavanceerde AI-toepassingen. Stel je een agent voor die vluchten kan boeken, documenten uit een database kan samenvatten, of zelfs code kan uitvoeren op basis van een natuurlijke taalprompt. Deze functionaliteit is precies wat agentic tool calling mogelijk maakt. Toch is de weg naar betrouwbaar toolgebruik bezaaid met uitdagingen.

Basis LLM's, hoewel krachtig in taalgeneratie, missen vaak het genuanceerde begrip dat nodig is voor nauwkeurige tool-aanroeping. Ze kunnen een tool afleiden die niet bestaat, de intentie van de gebruiker verkeerd interpreteren wat leidt tot incorrecte parameterwaarden, of niet herkennen wanneer kritieke informatie ontbreekt. Deze misstappen leiden tot frustrerende gebruikerservaringen en maken implementatie op bedrijfsniveau riskant. Voor organisaties die AI-agenten effectief willen operationaliseren, is het van het grootste belang om voorspelbare en betrouwbare tool-uitvoering te garanderen. De inzet is hoog, aangezien betrouwbare agenten ongekende niveaus van automatisering en efficiëntie kunnen ontsluiten, terwijl onbetrouwbare kunnen leiden tot kostbare fouten en ontevredenheid bij de gebruiker. Daarom is robuuste modeloptimalisatie voor agentic workflows essentieel, een taak die eenvoudiger wordt gemaakt met platforms zoals SageMaker AI.

Serverloze Modeloptimalisatie: Het Voordeel van SageMaker AI

De traditionele benadering voor het verbeteren van de prestaties van LLM's omvat vaak aanzienlijk infrastructuurbeheer – van de aanschaf van GPU's en geheugenorkestratie tot complexe beloningsinfrastructuur en checkpointing voor reinforcement learning. Deze taken introduceren aanzienlijke operationele overhead, waardoor waardevolle ontwikkelaarsbronnen worden afgeleid van het focussen op het kernprobleem: het verfijnen van modelgedrag.

Amazon SageMaker AI's serverloze modeloptimalisatie neemt deze last weg. Ontwikkelaars kunnen een foundation model selecteren (bijv. Qwen, Llama, GPT-OSS), een fine-tuning techniek zoals RLVR configureren, verwijzen naar hun gegevens en een beloningsfunctie definiëren. SageMaker AI beheert vervolgens het hele backend-proces, van het schalen van computermiddelen tot het beheren van trainingsfasen en hyperparameter-tuning. Deze abstractie stelt teams in staat zich te concentreren op de kwaliteit van de dataset en het ontwerp van de beloningsfunctie, de ware drijfveren van modelverbetering. Voor bedrijven vertaalt deze serverloze aanpak zich in snellere iteratiecycli, lagere kosten en een lagere drempel voor geavanceerde LLM-optimalisatie. Het is een game-changer voor degenen die AI voor iedereen willen schalen door complexe fine-tuning LLM's processen te vereenvoudigen.

Waarom RLVR Uitblinkt in Agentic Tool Calling

Als het gaat om het leren van een AI-agent om tools betrouwbaar te gebruiken, zijn niet alle fine-tuning technieken gelijk. Supervised Fine-Tuning (SFT) vereist zorgvuldig gelabelde voorbeelden voor elk mogelijk gedrag dat een model zou moeten vertonen – een tool aanroepen, om opheldering vragen, of een verzoek weigeren. De uitdaging met SFT is de moeite om het besluitvormingsproces tussen deze verschillende gedragingen te generaliseren, waarbij het vaak goed presteert op patronen die tijdens training zijn waargenomen, maar faalt in nieuwe scenario's.

Reinforcement Learning met Verifieerbare Beloningen (RLVR) biedt een dynamischere en effectievere oplossing. In tegenstelling tot SFT werkt RLVR met een feedbackloop:

Kandidaatgeneratie: Voor elke prompt genereert het model meerdere (bijv. acht) potentiële antwoorden.
Evaluatie van de beloningsfunctie: Een vooraf gedefinieerde beloningsfunctie beoordeelt objectief elke kandidaat en geeft de kwaliteit, correctheid en naleving van het gewenste gedrag aan (bijv. heeft het de juiste tool aangeroepen met de juiste parameters?).
Beleidsupdate: Met behulp van Group Relative Policy Optimization (GRPO) wordt het beleid van het model bijgewerkt om antwoorden te versterken die boven het gemiddelde van de gegenereerde groep scoorden. Dit proces leidt het model iteratief naar optimaal gedrag.

Deze iteratieve leermethode stelt het model in staat om niet alleen te begrijpen hoe een specifieke actie moet worden uitgevoerd, maar ook wanneer deze moet worden uitgevoerd. Het leert de nuances van het onderscheid maken tussen situaties waarin een tool call gepast is, opheldering nodig is, of weigering de beste handelswijze is. Omdat tool calling een natuurlijk verifieerbaar doel heeft – of het model de juiste functie met de juiste parameters heeft aangeroepen – sluit het uitzonderlijk goed aan bij het RLVR-paradigma, waardoor het ideaal is voor AI-agenten die een hoge betrouwbaarheid vereisen. Deze methode pakt effectief de uitdaging aan van het ontwerpen van agenten om prompt-injectie te weerstaan door precieze actiepatronen te versterken.

Trainingsgegevens van Hoge Kwaliteit Voorbereiden voor RLVR

Het succes van elke fine-tuning inspanning, vooral met RLVR, hangt af van de kwaliteit en volledigheid van de trainingsgegevens. Voor agentic tool calling moet de dataset het model meer leren dan alleen correcte API-aanroepen; het moet het volledige spectrum van vereiste agentgedragingen omvatten.

Onze aanpak omvatte het genereren van 1.500 synthetische trainingsexamples met Kiro, Amazon's AI-gestuurde IDE. Deze voorbeelden bestreken vijf verschillende tool-schema's: get_weather_forecast, search_flights, translate_text, currency_convert, en get_statistics. Cruciaal was dat de gegevens verdeeld waren over drie primaire agentgedragingen om gebalanceerd leren te garanderen:

Gedrag	Beschrijving	Percentage	Voorbeeld van 'Ground Truth'
Uitvoeren	Gebruiker levert alle benodigde parameters, model moet een tool aanroepen.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Verduidelijken	Het verzoek van de gebruiker mist vereiste parameters, model moet om opheldering vragen.	25%	`Om u de weersinformatie te geven, kunt u alstublieft de locatie specificeren?`
Weigeren	Verzoek is schadelijk of buiten bereik, model moet beleefd weigeren.	15%	`Het spijt me, ik kan dat verzoek niet inwilligen.`

Elk trainingsexample volgde een JSONL-formaat, inclusief een prompt (systeeminstructie en gebruikersverzoek) en een ground_truth in het reward_model-veld waartegen de beloningsfunctie scoort. Variërende formuleringen tussen formeel, informeel en kort verbeterden de robuustheid van de dataset verder. Hoewel synthetische gegevens een praktisch uitgangspunt vormen, kunnen organisaties met bestaande agentic workflows gebruikmaken van echte gebruikersprompts en tool calls uit productielogs om een nog hogere kwaliteitstraining te bereiken. Deze gegevensvoorbereiding is een cruciale stap in prompt engineering voor complexe agentgedragingen.

{
  "prompt": [
    {"role": "system", "content": "U bent een behulpzame assistent. Wanneer u tools gebruikt, antwoord dan met: [...]"},
    {"role": "user", "content": "Weer voor San Francisco opvragen"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "U bent een behulpzame assistent. Wanneer u tools gebruikt, antwoord dan met: [...]"},
    {"role": "user", "content": "Haal het weer op"}
  ],
  "reward_model": {
    "ground_truth": "Om u de weersinformatie te geven, kunt u alstublieft de locatie specificeren?"
  }
}

Fine-Tuning Qwen 2.5 7B Instruct met SageMaker AI

Het proces van fine-tuning van een model zoals Qwen 2.5 7B Instruct binnen Amazon SageMaker AI Studio is gestroomlijnd en intuïtief. Nadat is verzekerd dat aan de nodige voorwaarden (AWS-account, IAM-rol, SageMaker AI-domein, S3-bucket) is voldaan, kunnen gebruikers navigeren naar het gedeelte Modellen in de SageMaker AI Studio.

Vanaf daar, door Qwen 2.5 7B Instruct te selecteren en te kiezen voor Aanpassen met UI, wordt een speciale configuratiepagina geopend. Deze interface maakt het mogelijk om:

Techniekselectie: Expliciet kiezen voor Reinforcement Learning met Verifieerbare Beloningen (RLVR) uit de dropdown.
Data-invoer: Verwijzen naar de voorbereide trainingsdata die zijn opgeslagen in een Amazon S3-bucket.
Beloningsfunctie: Het configureren van het gelaagde scoringsmechanisme dat definieert hoe kandidaat-antwoorden worden geëvalueerd ten opzichte van de ground_truth.
Hyperparameterconfiguratie: Parameters aanpassen zoals batchgrootte, hoewel SageMaker AI vaak automatisch optimale instellingen beheert.

SageMaker AI ondersteunt een breed scala aan modelfamilies, waaronder Amazon Nova, GPT-OSS, Llama, Qwen, en DeepSeek, naast verschillende technieken zoals Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR, en Reinforcement Learning from AI Feedback (RLAIF). Geïntegreerde MLflow-tracking biedt inzicht in trainings- en validatiemetrieken, wat prestatiebewaking en iteratie vereenvoudigt. Dit gebruiksgemak versnelt de ontwikkelingscyclus voor ontwikkelaars die geavanceerde github-agentic-workflows bouwen aanzienlijk.

Evaluatie en Implementatiesucces

De effectiviteit van ons fine-tuned Qwen 2.5 7B Instruct model werd rigoureus geëvalueerd op niet-gebruikte gegevens, inclusief scenario's met volledig ongeziene tools — een cruciale test voor generalisatie. De resultaten waren overtuigend: het fine-tuned model behaalde een opmerkelijke verbetering van 57% in 'tool call reward' vergeleken met het basismodel. Deze significante sprong in prestaties op scenario's die het niet eerder tijdens de training was tegengekomen, onderstreept de kracht van RLVR in het leren van modellen van robuuste besluitvormingsvaardigheden voor tool-interactie.

Deze verbeterde betrouwbaarheid vertaalt zich direct in meer vertrouwen bij het implementeren van AI-agenten in productieomgevingen. Door het minimaliseren van gevallen van tool-hallucinaties, incorrecte parameters en ongepaste acties, kunnen bedrijven AI-agenten inzetten voor kritiekere en gevoeliger taken. Met SageMaker AI die de complexiteit van modelimplementatie en infrastructuurbeheer afhandelt, kunnen ontwikkelaars naadloos overgaan van fine-tuning naar productie, en het volledige potentieel van hun agentic AI-oplossingen realiseren. Deze mogelijkheid sluit aan bij de bredere visie van operationalisering van agentic AI voor impact in de echte wereld.

Kortom, de combinatie van Amazon SageMaker AI's serverloze modeloptimalisatie en de robuuste leermogelijkheden van RLVR biedt een krachtige weg naar het bouwen van zeer betrouwbare agentic tool calling systemen. Deze innovatieve aanpak versnelt de ontwikkeling, vermindert de operationele last en levert uiteindelijk AI-agenten die presteren met ongekende nauwkeurigheid en betrouwbaarheid.

SageMaker AI: Agentic Tool Calling Versnellen met Serverloze Modeloptimalisatie

SageMaker AI: Agentic Tool Calling Versnellen met Serverloze Modeloptimalisatie

De Belofte en Valkuilen van Agentic Tool Calling

Serverloze Modeloptimalisatie: Het Voordeel van SageMaker AI

Waarom RLVR Uitblinkt in Agentic Tool Calling

Trainingsgegevens van Hoge Kwaliteit Voorbereiden voor RLVR

Fine-Tuning Qwen 2.5 7B Instruct met SageMaker AI

Evaluatie en Implementatiesucces

Veelgestelde vragen

Blijf op de hoogte