Code Velocity
Ontwikkelaarsgereedskap

SageMaker KI: Versnelling van Agentiese Hulpmiddeloproepe met Bedienervrye Aanpassing

·5 min lees·AWS·Oorspronklike bron
Deel
Amazon SageMaker KI Studio-koppelvlak wat opsies vir bedienerlose modelaanpassing en agentiese hulpmiddeloproepe toon.

SageMaker KI: Versnelling van Agentiese Hulpmiddeloproepe met Bedienervrye Aanpassing

Agentiese KI het die manier waarop ons oor outomatiese take dink, gerevolusioneeer, wat stelsels in staat stel om besluite te neem en met die wêreld te interaksie deur gespesialiseerde gereedskap. Die ware nut van KI-agente in produksie hang egter af van hul vermoë om agentiese hulpmiddeloproepe betroubaar uit te voer. Dit is hoe agente databasisse bevraagteken, komplekse werkstrome aktiveer, intydse data herwin en beslissend namens 'n gebruiker optree. Ongelukkig was 'n algemene struikelblok vir wye aanneming die neiging van basiese groot taalmodelle (GTM's) om gereedskap te hallusineer, verkeerde parameters deur te gee, of aksies te probeer wanneer verduideliking nodig is. Sulke foute ondermyn vertroue en belemmer produksie-ontplooiing aansienlik.

Amazon SageMaker KI tree na vore om hierdie kritieke uitdagings op te los. Deur bedienerlose modelaanpassing aan te bied, kan ontwikkelaars GTM's fyninstel vir robuuste agentiese hulpmiddeloproepe sonder die tipiese operasionele oorhoofse koste. Sentraal tot hierdie innovasie is Versterkingsleer met Verifieerbare Belonings (RLVR), 'n tegniek wat modelle bemagtig om hul eie antwoorde te genereer en te valideer, en sodoende leer om suksesvolle hulpmiddelinteraksies te bevoordeel. Hierdie pos ondersoek hoe SageMaker KI, deur RLVR te gebruik, agentbetroubaarheid dramaties verbeter, en toon 'n 57% verbetering in hulpmiddeloproep-beloning op ongesiene scenario's met 'n fyngeinstelde Qwen 2.5 7B Instruct-model.

Die Belofte en Gevare van Agentiese Hulpmiddeloproepe

Die konsep van KI-agente wat met eksterne stelsels via gereedskap interaksie het, is 'n hoeksteen van gevorderde KI-toepassings. Stel jou 'n agent voor wat vlugte kan bespreek, dokumente uit 'n databasis kan opsom, of selfs kode kan uitvoer gebaseer op 'n natuurlike taalprompt. Hierdie funksionaliteit is presies wat agentiese hulpmiddeloproepe moontlik maak. Tog is die pad na betroubare gereedskapgebruik vol uitdagings.

Basiese GTM's, hoewel kragtig in taalgenerering, beskik dikwels nie oor die genuanseerde begrip wat vir presiese hulpmiddeloproep nodig is nie. Hulle kan 'n gereedskap aflei wat nie bestaan nie, gebruiker se bedoeling verkeerd interpreteer wat lei tot verkeerde parameterwaardes, of versuim om te erken wanneer kritieke inligting ontbreek. Hierdie misstappe lei tot frustrerende gebruikerservarings en maak ondernemingsvlak-ontplooiing riskant. Vir organisasies wat KI-agente effektief wil operasionaliseer, is die verseker van voorspelbare en betroubare hulpmiddeluitvoering van uiterste belang. Die belange is hoog, aangesien betroubare agente ongekende vlakke van outomatisering en doeltreffendheid kan ontsluit, terwyl onbetroubares kan lei tot duur foute en gebruikerontevredenheid. Dit is hoekom robuuste modeloptimalisering vir agentiese werkstrome noodsaaklik is, 'n taak wat eenvoudiger gemaak word met platforms soos SageMaker KI.

Bedienervrye Modelaanpassing: SageMaker KI se Voordeel

Die tradisionele benadering tot die verbetering van GTM-prestasie behels dikwels beduidende infrastruktuurbestuur – van GPU-verkryging en geheue-orkestrasie tot komplekse beloningsinfrastruktuur en kontrolepunte vir versterkingsleer. Hierdie take bring aansienlike operasionele oorhoofse koste mee, wat waardevolle ontwikkelaarhulpbronne aflei van die fokus op die kernprobleem: die verfyning van modelgedrag.

Amazon SageMaker KI se bedienerlose modelaanpassing verwyder hierdie las. Ontwikkelaars kan 'n fondamentmodel kies (bv. Qwen, Llama, GPT-OSS), 'n fyninstellingstegniek soos RLVR konfigureer, na hul data wys, en 'n beloningsfunksie definieer. SageMaker KI bestuur dan die hele agterkantproses, van die skaal van rekenaarhulpbronne tot die bestuur van opleidingsfases en hiperparameter-instelling. Hierdie abstraksie stel spanne in staat om op datastelkwaliteit en beloningsfunksie-ontwerp te konsentreer, wat die ware drywers van modelverbetering is. Vir ondernemings vertaal hierdie bedienerlose benadering in vinniger iterasiesiklusse, verminderde koste, en 'n laer toegangsversperring vir gevorderde GTM-aanpassing. Dit is 'n spelwisselaar vir diegene wat KI vir almal wil skaal deur komplekse fynstelling van GTM's-prosesse te vereenvoudig.

Wanneer dit kom by die onderrig van 'n KI-agent om gereedskap betroubaar te gebruik, is nie alle fyninstellingstegnieke ewe goed nie. Begeleide Fyninstelling (SFT) vereis noukeurig geëtiketteerde voorbeelde vir elke moontlike gedrag wat 'n model moet toon – 'n hulpmiddel oproep, vir verduideliking vra, of 'n versoek weier. Die uitdaging met SFT is sy stryd om die besluitnemingsproses tussen hierdie afsonderlike gedrag te veralgemeen, wat dikwels goed presteer op patrone wat tydens opleiding gesien is, maar faal op nuwe scenario's.

Versterkingsleer met Verifieerbare Belonings (RLVR) bied 'n meer dinamiese en effektiewe oplossing. Anders as SFT, werk RLVR op 'n terugvoerlus:

  1. Kandidaatgenerering: Vir elke aanwysing genereer die model verskeie (bv. agt) potensiële antwoorde.
  2. Beloningsfunksie-evaluering: 'n Vooraf gedefinieerde beloningsfunksie beoordeel elke kandidaat objektief, wat die kwaliteit, korrektheid en nakoming van gewenste gedrag aandui (bv. het dit die regte gereedskap met die korrekte parameters opgeroep?).
  3. Beleidsopdatering: Deur Groep Relatiewe Beleidsoptimering (GRPO) te gebruik, word die model se beleid opgedateer om antwoorde te versterk wat bo die gemiddelde van die gegenereerde groep getel het. Hierdie proses lei die model iteratief na meer optimale gedrag.

Hierdie iteratiewe leer stel die model in staat om nie net te verstaan hoe om 'n spesifieke aksie uit te voer nie, maar wanneer om dit te doen. Dit leer die nuanses van die onderskeid tussen situasies waar 'n hulpmiddeloproep gepas is, verduideliking nodig is, of weiering die beste aksie is. Omdat hulpmiddeloproepe 'n natuurlik verifieerbare doelwit het – of die model die regte funksie met die regte parameters opgeroep het – pas dit uitsonderlik goed by die RLVR-paradigma, wat dit ideaal maak vir KI-agente wat hoë betroubaarheid vereis. Hierdie metode spreek die uitdaging van die ontwerp van agente om aanwysingsinspuiting te weerstaan effektief aan deur presiese aksiepatrone te versterk.

Voorbereiding van Hoëgehalte Opleidingsdata vir RLVR

Die sukses van enige fyninstellingpoging, veral met RLVR, hang af van die kwaliteit en volledigheid van die opleidingsdata. Vir agentiese hulpmiddeloproepe moet die datastel die model meer leer as net korrekte API-aanroepe; dit moet die volle spektrum van vereiste agentgedrag omvat.

Ons benadering het die generering van 1 500 sintetiese opleidingvoorbeelde behels deur Kiro, Amazon se KI-gedrewe IDE, te gebruik. Hierdie voorbeelde het vyf afsonderlike gereedskapskemas gedek: get_weather_forecast, search_flights, translate_text, currency_convert, en get_statistics. Wat van deurslaggewende belang is, is dat die data oor drie primêre agentgedrag versprei is om gebalanseerde leer te verseker:

GedragBeskrywingPersentasieWare Waarde Voorbeeld
UitvoerGebruiker verskaf alle nodige parameters, model moet 'n gereedskap oproep.60%[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]
VerduidelikGebruiker se versoek ontbreek vereiste parameters, model moet vir verduideliking vra.25%Om jou van die weerinligting te voorsien, kan jy asseblief die ligging spesifiseer?
WeierVersoek is skadelik of buite omvang, model moet beleefd weier.15%Ek is jammer, ek kan nie daardie versoek uitvoer nie.

Elke opleidingvoorbeeld het 'n JSONL-formaat gevolg, insluitend 'n aanwysing (stelselinstruksie en gebruikerversoek) en 'n ground_truth in die reward_model-veld waarteenoor die beloningsfunksie punte aanteken. Die afwisseling van frase tussen formeel, informeel en kortaf het die datastel se robuustheid verder verbeter. Hoewel sintetiese data 'n praktiese beginpunt bied, kan organisasies met bestaande agentiese werkstrome werklike gebruikersaanwysings en gereedskapoproepe uit produksielogboeke benut om selfs hoër kwaliteit opleiding te behaal. Hierdie datavoorbereiding is 'n kritieke stap in aanwysingsingenieurswese vir komplekse agentgedrag.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}
{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

Fynstelling van Qwen 2.5 7B Instruct met SageMaker KI

Die proses om 'n model soos Qwen 2.5 7B Instruct binne Amazon SageMaker KI Studio fyn te instel, is vaartbelyn en intuïtief. Nadat verseker is dat die nodige voorvereistes (AWS-rekening, IAM-rol, SageMaker KI-domein, S3-emmer) nagekom is, kan gebruikers na die Modelle-afdeling in die SageMaker KI Studio navigeer.

Van daar, deur Qwen 2.5 7B Instruct te kies en Pasmaak met UI te kies, maak 'n toegewyde konfigurasiebladsy oop. Hierdie koppelvlak maak voorsiening vir:

  • Tegniekseleksie: Die eksplisiete keuse van Versterkingsleer met Verifieerbare Belonings (RLVR) uit die aftreklys.
  • Data-invoer: Verwysing na die voorbereide opleidingsdata wat in 'n Amazon S3-emmer gestoor is.
  • Beloningsfunksie: Die konfigureer van die trapsgewyse tellingmeganisme wat definieer hoe kandidaatantwoorde teen die ground_truth geëvalueer word.
  • Hiperparameterkonfigurasie: Die aanpassing van parameters soos bondelgrootte, hoewel SageMaker KI dikwels optimale instellings outomaties hanteer.

SageMaker KI ondersteun 'n diverse reeks modelfamilies, insluitend Amazon Nova, GPT-OSS, Llama, Qwen, en DeepSeek, saam met verskeie tegnieke soos Begeleide Fyninstelling (SFT), Direkte Voorkeuropimalisering (DPO), RLVR, en Versterkingsleer uit KI-terugvoer (RLAIF). Geïntegreerde MLflow-opsporing bied sigbaarheid in opleidings- en valideringsmetrieke, wat prestasiebewaking en iterasie vereenvoudig. Hierdie gebruiksgemak versnel die ontwikkelingslewensiklus dramaties vir ontwikkelaars wat gesofistikeerde github-agentiese-werkstrome bou.

Evaluering en Ontplooiingsukses

Die doeltreffendheid van ons fyngeinstelde Qwen 2.5 7B Instruct-model is streng geëvalueer op terughou-data, insluitend scenario's met heeltemal ongesiene gereedskap—'n deurslaggewende toets vir veralgemening. Die resultate was oortuigend: die fyngeinstelde model het 'n merkwaardige 57% verbetering in hulpmiddeloproep-beloning behaal in vergelyking met die basismodel. Hierdie beduidende sprong in prestasie op scenario's wat dit nie tydens opleiding teëgekom het nie, onderstreep die krag van RLVR in die onderrig van modelle robuuste besluitnemingsvermoëns vir gereedskapinteraksie.

Hierdie verbeterde betroubaarheid vertaal direk na hoër vertroue en sekerheid in die ontplooiing van KI-agente in produksie-omgewings. Deur gevalle van gereedskapshallusinasies, verkeerde parameters en onvanpaste aksies te minimaliseer, kan ondernemings KI-agente vir meer kritieke en sensitiewe take benut. Met SageMaker KI wat die kompleksiteite van modelontplooiing en infrastruktuurbestuur hanteer, kan ontwikkelaars naatloos van fyninstelling na produksie beweeg, en sodoende die volle potensiaal van hul agentiese KI-oplossings verwesenlik. Hierdie vermoë strook met die breër visie van operasionalisering van agentiese KI vir werklike impak.

Samevattend bied die kombinasie van Amazon SageMaker KI se bedienerlose modelaanpassing en die robuuste leervermoëns van RLVR 'n kragtige weg na die bou van hoogs betroubare agentiese hulpmiddeloproep-stelsels. Hierdie innoverende benadering versnel ontwikkeling, verminder operasionele las, en lewer uiteindelik KI-agente wat met ongekende akkuraatheid en betroubaarheid presteer.

Gereelde Vrae

What is agentic tool calling and why is it crucial for AI agents?
Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.
What are the common challenges AI agents face when performing tool calls?
AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.
How does Amazon SageMaker AI address the challenges of agentic tool calling?
Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.
What prerequisites are needed to use serverless model customization in SageMaker AI?
To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

Bly op hoogte

Kry die nuutste KI-nuus in jou inkassie.

Deel