SageMaker AI: Accelerering af agent-værktøjskald med serverløs modeltilpasning
Agent-AI har revolutioneret vores måde at tænke på automatiserede opgaver, hvilket gør systemer i stand til at træffe beslutninger og interagere med verden gennem specialiserede værktøjer. Den sande nytteværdi af AI-agenter i produktion afhænger dog af deres evne til pålideligt at udføre agent-værktøjskald. Dette er, hvordan agenter forespørger databaser, udløser komplekse arbejdsgange, henter realtidsdata og handler beslutsomt på en brugers vegne. Desværre har en almindelig hindring for bred adoption været tendensen hos grundlæggende store sprogmodeller (LLM'er) til at hallucinere værktøjer, videregive ukorrekte parametre eller forsøge handlinger, når afklaring er nødvendig. Sådanne fejl underminerer tilliden og hæmmer betydeligt produktionsimplementering.
Amazon SageMaker AI tager nu fat på at løse disse kritiske udfordringer. Ved at tilbyde serverløs modeltilpasning kan udviklere finjustere LLM'er til robuste agent-værktøjskald uden den typiske operationelle overhead. Centralt for denne innovation er Forstærkningslæring med Verificerbare Belønninger (RLVR), en teknik, der giver modeller mulighed for at generere og validere deres egne svar, og lærer at foretrække vellykkede værktøjsinteraktioner. Dette indlæg dykker ned i, hvordan SageMaker AI, ved at udnytte RLVR, dramatisk forbedrer agentpålideligheden og viser en 57% forbedring i belønning for værktøjskald i usete scenarier med en finjusteret Qwen 2.5 7B Instruct-model.
Agent-værktøjskalds løfter og faldgruber
Konceptet med AI-agenter, der interagerer med eksterne systemer via værktøjer, er en hjørnesten i avancerede AI-applikationer. Forestil dig en agent, der kan booke flyrejser, opsummere dokumenter fra en database eller endda udføre kode baseret på en naturlig sprogprompt. Denne funktionalitet er præcis, hvad agent-værktøjskald muliggør. Alligevel er vejen til pålidelig værktøjsbrug fyldt med udfordringer.
Grundlæggende LLM'er, selvom de er kraftfulde inden for sproggenerering, mangler ofte den nuancerede forståelse, der kræves for præcis værktøjsaktivering. De kan udlede et værktøj, der ikke eksisterer, misfortolke brugerens intention, hvilket fører til ukorrekte parameterværdier, eller undlade at genkende, når kritisk information mangler. Disse fejltrin fører til frustrerende brugeroplevelser og gør implementering på virksomhedsniveau risikabel. For organisationer, der ønsker at operationalisere AI-agenter effektivt, er det altafgørende at sikre forudsigelig og troværdig værktøjseksekvering. Indsatserne er høje, da pålidelige agenter kan frigøre hidtil usete niveauer af automatisering og effektivitet, mens upålidelige kan føre til kostbare fejl og utilfredshed hos brugerne. Det er derfor, robust modeloptimering for agent-arbejdsgange er afgørende, en opgave der gøres enklere med platforme som SageMaker AI.
Serverløs modeltilpasning: SageMaker AI's fordel
Den traditionelle tilgang til forbedring af LLM-ydeevne involverer ofte betydelig infrastrukturopgave – fra GPU-indkøb og hukommelsesorkestrering til kompleks belønningsinfrastruktur og checkpointing for forstærkningslæring. Disse opgaver introducerer betydelig operationel overhead, hvilket afleder værdifulde udviklerressourcer fra at fokusere på kerneproblemet: at forfine modeladfærd.
Amazon SageMaker AI's serverløse modeltilpasning fjerner denne byrde. Udviklere kan vælge en grundmodel (f.eks. Qwen, Llama, GPT-OSS), konfigurere en finjusteringsteknik som RLVR, pege på deres data og definere en belønningsfunktion. SageMaker AI administrerer derefter hele backend-processen, fra skalering af beregningsressourcer til styring af træningsfaser og hyperparameter-tuning. Denne abstraktion gør det muligt for teams at koncentrere sig om datasætkvalitet og design af belønningsfunktioner, som er de virkelige drivkræfter bag modelforbedring. For virksomheder omsættes denne serverløse tilgang til hurtigere iterationscyklusser, reducerede omkostninger og en lavere adgangsbarriere for avanceret LLM-tilpasning. Det er en game-changer for dem, der ønsker at skalere AI for alle ved at forenkle komplekse processer for finjustering af LLM'er.
Hvorfor RLVR udmærker sig ved agent-værktøjskald
Når det kommer til at lære en AI-agent at bruge værktøjer pålideligt, er ikke alle finjusteringsteknikker lige effektive. Supervised Fine-Tuning (SFT) kræver omhyggeligt mærkede eksempler for enhver mulig adfærd, en model skal udvise – at kalde et værktøj, bede om afklaring eller afvise en anmodning. Udfordringen med SFT er dens kamp for at generalisere beslutningsprocessen mellem disse forskellige adfærd, ofte præsterer den godt på mønstre set under træning, men svigter i nye scenarier.
Forstærkningslæring med Verificerbare Belønninger (RLVR) tilbyder en mere dynamisk og effektiv løsning. I modsætning til SFT opererer RLVR med en feedbackløkke:
- Kandidatgenerering: For hver prompt genererer modellen flere (f.eks. otte) potentielle svar.
- Evaluering af belønningsfunktion: En foruddefineret
belønningsfunktionscorer objektivt hver kandidat og angiver dens kvalitet, korrekthed og overholdelse af den ønskede adfærd (f.eks. om den kaldte det rigtige værktøj med de korrekte parametre?). - Politikopdatering: Ved hjælp af Group Relative Policy Optimization (GRPO) opdateres modellens politik for at forstærke svar, der scorede over gennemsnittet af den genererede gruppe. Denne proces guider iterativt modellen mod mere optimal adfærd.
Denne iterative læring gør modellen i stand til at forstå ikke kun hvordan man udfører en specifik handling, men hvornår man skal udføre den. Den lærer nuancerne i at skelne mellem situationer, hvor et værktøjskald er passende, afklaring er nødvendig, eller afvisning er den bedste handling. Fordi værktøjskald har et naturligt verificerbart mål – om modellen kaldte den rigtige funktion med de rigtige parametre – passer det usædvanligt godt til RLVR-paradigmet, hvilket gør det ideelt for AI-agenter, der kræver høj pålidelighed. Denne metode adresserer effektivt udfordringen med design af agenter til at modstå prompt injection ved at forstærke præcise handlingsmønstre.
Forberedelse af træningsdata af høj kvalitet til RLVR
Succesen af enhver finjusteringsindsats, især med RLVR, afhænger af træningsdataenes kvalitet og omfattende karakter. For agent-værktøjskald skal datasættet lære modellen mere end blot korrekte API-kald; det skal omfatte hele spektret af nødvendige agentadfærd.
Vores tilgang involverede generering af 1.500 syntetiske træningseksempler ved hjælp af Kiro, Amazons AI-drevne IDE. Disse eksempler dækkede fem forskellige værktøjsskemata: get_weather_forecast, search_flights, translate_text, currency_convert og get_statistics. Afgørende var, at data blev fordelt på tværs af tre primære agentadfærd for at sikre afbalanceret læring:
| Adfærd | Beskrivelse | Procentdel | Ground Truth Eksempel |
|---|---|---|---|
| Udfør | Brugeren leverer alle nødvendige parametre, modellen skal kalde et værktøj. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Afklar | Brugerens anmodning mangler nødvendige parametre, modellen skal bede om afklaring. | 25% | To provide you with the weather information, could you please specify the location? |
| Afvis | Anmodningen er skadelig eller uden for omfanget, modellen bør høfligt afvise. | 15% | I'm sorry, I cannot fulfill that request. |
Hvert træningseksempel fulgte et JSONL-format, inklusive en prompt (systeminstruktion og brugeranmodning) og en ground_truth i reward_model-feltet, som belønningsfunktionen scorer imod. Varierende formuleringer mellem formel, uformel og kortfattet forbedrede yderligere datasættets robusthed. Mens syntetiske data giver et praktisk udgangspunkt, kan organisationer med eksisterende agent-arbejdsgange udnytte reelle brugerprompts og værktøjskald fra produktionslogfiler for at opnå endnu højere træningskvalitet. Denne dataforberedelse er et kritisk skridt i prompt engineering for kompleks agentadfærd.
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get weather for San Francisco"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Finjustering af Qwen 2.5 7B Instruct med SageMaker AI
Processen med at finjustere en model som Qwen 2.5 7B Instruct inden for Amazon SageMaker AI Studio er strømlinet og intuitiv. Efter at have sikret, at de nødvendige forudsætninger (AWS-konto, IAM-rolle, SageMaker AI-domæne, S3-bucket) er opfyldt, kan brugere navigere til sektionen Modeller i SageMaker AI Studio.
Derfra åbner et valg af Qwen 2.5 7B Instruct og derefter Tilpas med UI en dedikeret konfigurationsside. Denne grænseflade giver mulighed for:
- Valg af teknik: Udtrykkeligt valg af
Forstærkningslæring med Verificerbare Belønninger (RLVR)fra rullemenuen. - Datainput: Pegende på de forberedte træningsdata, der er gemt i en Amazon S3-bucket.
- Belønningsfunktion: Konfiguration af den trinvise scoringsmekanisme, der definerer, hvordan kandidatsvar evalueres mod
ground_truth. - Hyperparameterkonfiguration: Justering af parametre som batchstørrelse, selvom SageMaker AI ofte håndterer optimale indstillinger automatisk.
SageMaker AI understøtter en bred vifte af modelfamilier, herunder Amazon Nova, GPT-OSS, Llama, Qwen og DeepSeek, samt forskellige teknikker som Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR og Reinforcement Learning from AI Feedback (RLAIF). Integreret MLflow-sporing giver indsigt i trænings- og valideringsmålinger, hvilket forenkler ydeevneovervågning og iteration. Denne brugervenlighed accelererer dramatisk udviklingslivscyklussen for udviklere, der bygger sofistikerede github-agentic-workflows.
Evaluering og implementeringssucces
Effektiviteten af vores finjusterede Qwen 2.5 7B Instruct-model blev grundigt evalueret på tilbageholdt data, inklusive scenarier med helt usete værktøjer – en afgørende test for generalisering. Resultaterne var overbevisende: den finjusterede model opnåede en bemærkelsesværdig 57% forbedring i belønning for værktøjskald sammenlignet med grundmodellen. Dette betydelige spring i ydeevne på scenarier, den ikke havde mødt under træning, understreger kraften i RLVR til at lære modeller robuste beslutningstagningsevner for værktøjsinteraktion.
Denne forbedrede pålidelighed omsættes direkte til højere tillid og selvsikkerhed ved implementering af AI-agenter i produktionsmiljøer. Ved at minimere tilfælde af værktøjshallucinationer, ukorrekte parametre og upassende handlinger kan virksomheder udnytte AI-agenter til mere kritiske og følsomme opgaver. Med SageMaker AI, der håndterer kompleksiteten ved modelimplementering og infrastrukturstyring, kan udviklere problemfrit bevæge sig fra finjustering til produktion og realisere det fulde potentiale af deres agent-AI-løsninger. Denne kapacitet stemmer overens med den bredere vision om operationalisering af agent-AI for reel indvirkning.
Sammenfattende giver kombinationen af Amazon SageMaker AI's serverløse modeltilpasning og RLVR's robuste læringskapaciteter en kraftfuld vej til at bygge yderst pålidelige agent-værktøjskald-systemer. Denne innovative tilgang accelererer udvikling, reducerer operationel byrde og leverer i sidste ende AI-agenter, der yder med hidtil uset nøjagtighed og pålidelighed.
Ofte stillede spørgsmål
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Hold dig opdateret
Få de seneste AI-nyheder i din indbakke.
