SageMaker AI: Agentic Tool Calling Versnellen met Serverloze Modeloptimalisatie
Agentic AI heeft een revolutie teweeggebracht in de manier waarop we denken over geautomatiseerde taken, door systemen in staat te stellen beslissingen te nemen en te interageren met de wereld via gespecialiseerde tools. Echter, de ware bruikbaarheid van AI-agenten in productie hangt af van hun vermogen om betrouwbaar agentic tool calling uit te voeren. Dit is hoe agenten databases bevragen, complexe workflows activeren, realtime gegevens ophalen en daadkrachtig handelen namens een gebruiker. Helaas is een veelvoorkomende belemmering voor brede adoptie de neiging van basis grote taalmodellen (LLM's) om tools te hallucineren, incorrecte parameters door te geven, of acties te proberen wanneer om opheldering moet worden gevraagd. Dergelijke fouten ondermijnen het vertrouwen en belemmeren de implementatie in productie aanzienlijk.
Amazon SageMaker AI is bezig deze kritieke uitdagingen op te lossen. Door serverloze modeloptimalisatie aan te bieden, kunnen ontwikkelaars LLM's fine-tunen voor robuuste agentic tool calling zonder de typische operationele overhead. Centraal in deze innovatie staat Reinforcement Learning with Verifiable Rewards (RLVR), een techniek die modellen in staat stelt om hun eigen antwoorden te genereren en te valideren, waarbij ze leren om succesvolle tool-interacties te bevoordelen. Dit bericht gaat dieper in op hoe SageMaker AI, gebruikmakend van RLVR, de betrouwbaarheid van agenten drastisch verbetert, door een verbetering van 57% in 'tool call reward' te tonen in ongeziene scenario's met een fine-tuned Qwen 2.5 7B Instruct model.
De Belofte en Valkuilen van Agentic Tool Calling
Het concept van AI-agenten die via tools interageren met externe systemen is een hoeksteen van geavanceerde AI-toepassingen. Stel je een agent voor die vluchten kan boeken, documenten uit een database kan samenvatten, of zelfs code kan uitvoeren op basis van een natuurlijke taalprompt. Deze functionaliteit is precies wat agentic tool calling mogelijk maakt. Toch is de weg naar betrouwbaar toolgebruik bezaaid met uitdagingen.
Basis LLM's, hoewel krachtig in taalgeneratie, missen vaak het genuanceerde begrip dat nodig is voor nauwkeurige tool-aanroeping. Ze kunnen een tool afleiden die niet bestaat, de intentie van de gebruiker verkeerd interpreteren wat leidt tot incorrecte parameterwaarden, of niet herkennen wanneer kritieke informatie ontbreekt. Deze misstappen leiden tot frustrerende gebruikerservaringen en maken implementatie op bedrijfsniveau riskant. Voor organisaties die AI-agenten effectief willen operationaliseren, is het van het grootste belang om voorspelbare en betrouwbare tool-uitvoering te garanderen. De inzet is hoog, aangezien betrouwbare agenten ongekende niveaus van automatisering en efficiëntie kunnen ontsluiten, terwijl onbetrouwbare kunnen leiden tot kostbare fouten en ontevredenheid bij de gebruiker. Daarom is robuuste modeloptimalisatie voor agentic workflows essentieel, een taak die eenvoudiger wordt gemaakt met platforms zoals SageMaker AI.
Serverloze Modeloptimalisatie: Het Voordeel van SageMaker AI
De traditionele benadering voor het verbeteren van de prestaties van LLM's omvat vaak aanzienlijk infrastructuurbeheer – van de aanschaf van GPU's en geheugenorkestratie tot complexe beloningsinfrastructuur en checkpointing voor reinforcement learning. Deze taken introduceren aanzienlijke operationele overhead, waardoor waardevolle ontwikkelaarsbronnen worden afgeleid van het focussen op het kernprobleem: het verfijnen van modelgedrag.
Amazon SageMaker AI's serverloze modeloptimalisatie neemt deze last weg. Ontwikkelaars kunnen een foundation model selecteren (bijv. Qwen, Llama, GPT-OSS), een fine-tuning techniek zoals RLVR configureren, verwijzen naar hun gegevens en een beloningsfunctie definiëren. SageMaker AI beheert vervolgens het hele backend-proces, van het schalen van computermiddelen tot het beheren van trainingsfasen en hyperparameter-tuning. Deze abstractie stelt teams in staat zich te concentreren op de kwaliteit van de dataset en het ontwerp van de beloningsfunctie, de ware drijfveren van modelverbetering. Voor bedrijven vertaalt deze serverloze aanpak zich in snellere iteratiecycli, lagere kosten en een lagere drempel voor geavanceerde LLM-optimalisatie. Het is een game-changer voor degenen die AI voor iedereen willen schalen door complexe fine-tuning LLM's processen te vereenvoudigen.
Waarom RLVR Uitblinkt in Agentic Tool Calling
Als het gaat om het leren van een AI-agent om tools betrouwbaar te gebruiken, zijn niet alle fine-tuning technieken gelijk. Supervised Fine-Tuning (SFT) vereist zorgvuldig gelabelde voorbeelden voor elk mogelijk gedrag dat een model zou moeten vertonen – een tool aanroepen, om opheldering vragen, of een verzoek weigeren. De uitdaging met SFT is de moeite om het besluitvormingsproces tussen deze verschillende gedragingen te generaliseren, waarbij het vaak goed presteert op patronen die tijdens training zijn waargenomen, maar faalt in nieuwe scenario's.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) biedt een dynamischere en effectievere oplossing. In tegenstelling tot SFT werkt RLVR met een feedbackloop:
- Kandidaatgeneratie: Voor elke prompt genereert het model meerdere (bijv. acht) potentiële antwoorden.
- Evaluatie van de beloningsfunctie: Een vooraf gedefinieerde
beloningsfunctiebeoordeelt objectief elke kandidaat en geeft de kwaliteit, correctheid en naleving van het gewenste gedrag aan (bijv. heeft het de juiste tool aangeroepen met de juiste parameters?). - Beleidsupdate: Met behulp van Group Relative Policy Optimization (GRPO) wordt het beleid van het model bijgewerkt om antwoorden te versterken die boven het gemiddelde van de gegenereerde groep scoorden. Dit proces leidt het model iteratief naar optimaal gedrag.
Deze iteratieve leermethode stelt het model in staat om niet alleen te begrijpen hoe een specifieke actie moet worden uitgevoerd, maar ook wanneer deze moet worden uitgevoerd. Het leert de nuances van het onderscheid maken tussen situaties waarin een tool call gepast is, opheldering nodig is, of weigering de beste handelswijze is. Omdat tool calling een natuurlijk verifieerbaar doel heeft – of het model de juiste functie met de juiste parameters heeft aangeroepen – sluit het uitzonderlijk goed aan bij het RLVR-paradigma, waardoor het ideaal is voor AI-agenten die een hoge betrouwbaarheid vereisen. Deze methode pakt effectief de uitdaging aan van het ontwerpen van agenten om prompt-injectie te weerstaan door precieze actiepatronen te versterken.
Trainingsgegevens van Hoge Kwaliteit Voorbereiden voor RLVR
Het succes van elke fine-tuning inspanning, vooral met RLVR, hangt af van de kwaliteit en volledigheid van de trainingsgegevens. Voor agentic tool calling moet de dataset het model meer leren dan alleen correcte API-aanroepen; het moet het volledige spectrum van vereiste agentgedragingen omvatten.
Onze aanpak omvatte het genereren van 1.500 synthetische trainingsexamples met Kiro, Amazon's AI-gestuurde IDE. Deze voorbeelden bestreken vijf verschillende tool-schema's: get_weather_forecast, search_flights, translate_text, currency_convert, en get_statistics. Cruciaal was dat de gegevens verdeeld waren over drie primaire agentgedragingen om gebalanceerd leren te garanderen:
| Gedrag | Beschrijving | Percentage | Voorbeeld van 'Ground Truth' |
|---|---|---|---|
| Uitvoeren | Gebruiker levert alle benodigde parameters, model moet een tool aanroepen. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Verduidelijken | Het verzoek van de gebruiker mist vereiste parameters, model moet om opheldering vragen. | 25% | Om u de weersinformatie te geven, kunt u alstublieft de locatie specificeren? |
| Weigeren | Verzoek is schadelijk of buiten bereik, model moet beleefd weigeren. | 15% | Het spijt me, ik kan dat verzoek niet inwilligen. |
Elk trainingsexample volgde een JSONL-formaat, inclusief een prompt (systeeminstructie en gebruikersverzoek) en een ground_truth in het reward_model-veld waartegen de beloningsfunctie scoort. Variërende formuleringen tussen formeel, informeel en kort verbeterden de robuustheid van de dataset verder. Hoewel synthetische gegevens een praktisch uitgangspunt vormen, kunnen organisaties met bestaande agentic workflows gebruikmaken van echte gebruikersprompts en tool calls uit productielogs om een nog hogere kwaliteitstraining te bereiken. Deze gegevensvoorbereiding is een cruciale stap in prompt engineering voor complexe agentgedragingen.
{
"prompt": [
{"role": "system", "content": "U bent een behulpzame assistent. Wanneer u tools gebruikt, antwoord dan met: [...]"},
{"role": "user", "content": "Weer voor San Francisco opvragen"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "U bent een behulpzame assistent. Wanneer u tools gebruikt, antwoord dan met: [...]"},
{"role": "user", "content": "Haal het weer op"}
],
"reward_model": {
"ground_truth": "Om u de weersinformatie te geven, kunt u alstublieft de locatie specificeren?"
}
}
Fine-Tuning Qwen 2.5 7B Instruct met SageMaker AI
Het proces van fine-tuning van een model zoals Qwen 2.5 7B Instruct binnen Amazon SageMaker AI Studio is gestroomlijnd en intuïtief. Nadat is verzekerd dat aan de nodige voorwaarden (AWS-account, IAM-rol, SageMaker AI-domein, S3-bucket) is voldaan, kunnen gebruikers navigeren naar het gedeelte Modellen in de SageMaker AI Studio.
Vanaf daar, door Qwen 2.5 7B Instruct te selecteren en te kiezen voor Aanpassen met UI, wordt een speciale configuratiepagina geopend. Deze interface maakt het mogelijk om:
- Techniekselectie: Expliciet kiezen voor
Reinforcement Learning met Verifieerbare Beloningen (RLVR)uit de dropdown. - Data-invoer: Verwijzen naar de voorbereide trainingsdata die zijn opgeslagen in een Amazon S3-bucket.
- Beloningsfunctie: Het configureren van het gelaagde scoringsmechanisme dat definieert hoe kandidaat-antwoorden worden geëvalueerd ten opzichte van de
ground_truth. - Hyperparameterconfiguratie: Parameters aanpassen zoals batchgrootte, hoewel SageMaker AI vaak automatisch optimale instellingen beheert.
SageMaker AI ondersteunt een breed scala aan modelfamilies, waaronder Amazon Nova, GPT-OSS, Llama, Qwen, en DeepSeek, naast verschillende technieken zoals Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR, en Reinforcement Learning from AI Feedback (RLAIF). Geïntegreerde MLflow-tracking biedt inzicht in trainings- en validatiemetrieken, wat prestatiebewaking en iteratie vereenvoudigt. Dit gebruiksgemak versnelt de ontwikkelingscyclus voor ontwikkelaars die geavanceerde github-agentic-workflows bouwen aanzienlijk.
Evaluatie en Implementatiesucces
De effectiviteit van ons fine-tuned Qwen 2.5 7B Instruct model werd rigoureus geëvalueerd op niet-gebruikte gegevens, inclusief scenario's met volledig ongeziene tools — een cruciale test voor generalisatie. De resultaten waren overtuigend: het fine-tuned model behaalde een opmerkelijke verbetering van 57% in 'tool call reward' vergeleken met het basismodel. Deze significante sprong in prestaties op scenario's die het niet eerder tijdens de training was tegengekomen, onderstreept de kracht van RLVR in het leren van modellen van robuuste besluitvormingsvaardigheden voor tool-interactie.
Deze verbeterde betrouwbaarheid vertaalt zich direct in meer vertrouwen bij het implementeren van AI-agenten in productieomgevingen. Door het minimaliseren van gevallen van tool-hallucinaties, incorrecte parameters en ongepaste acties, kunnen bedrijven AI-agenten inzetten voor kritiekere en gevoeliger taken. Met SageMaker AI die de complexiteit van modelimplementatie en infrastructuurbeheer afhandelt, kunnen ontwikkelaars naadloos overgaan van fine-tuning naar productie, en het volledige potentieel van hun agentic AI-oplossingen realiseren. Deze mogelijkheid sluit aan bij de bredere visie van operationalisering van agentic AI voor impact in de echte wereld.
Kortom, de combinatie van Amazon SageMaker AI's serverloze modeloptimalisatie en de robuuste leermogelijkheden van RLVR biedt een krachtige weg naar het bouwen van zeer betrouwbare agentic tool calling systemen. Deze innovatieve aanpak versnelt de ontwikkeling, vermindert de operationele last en levert uiteindelijk AI-agenten die presteren met ongekende nauwkeurigheid en betrouwbaarheid.
Veelgestelde vragen
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Blijf op de hoogte
Ontvang het laatste AI-nieuws in je inbox.
