SageMaker KI: Versnelling van Agentiese Hulpmiddeloproepe met Bedienervrye Aanpassing
Agentiese KI het die manier waarop ons oor outomatiese take dink, gerevolusioneeer, wat stelsels in staat stel om besluite te neem en met die wêreld te interaksie deur gespesialiseerde gereedskap. Die ware nut van KI-agente in produksie hang egter af van hul vermoë om agentiese hulpmiddeloproepe betroubaar uit te voer. Dit is hoe agente databasisse bevraagteken, komplekse werkstrome aktiveer, intydse data herwin en beslissend namens 'n gebruiker optree. Ongelukkig was 'n algemene struikelblok vir wye aanneming die neiging van basiese groot taalmodelle (GTM's) om gereedskap te hallusineer, verkeerde parameters deur te gee, of aksies te probeer wanneer verduideliking nodig is. Sulke foute ondermyn vertroue en belemmer produksie-ontplooiing aansienlik.
Amazon SageMaker KI tree na vore om hierdie kritieke uitdagings op te los. Deur bedienerlose modelaanpassing aan te bied, kan ontwikkelaars GTM's fyninstel vir robuuste agentiese hulpmiddeloproepe sonder die tipiese operasionele oorhoofse koste. Sentraal tot hierdie innovasie is Versterkingsleer met Verifieerbare Belonings (RLVR), 'n tegniek wat modelle bemagtig om hul eie antwoorde te genereer en te valideer, en sodoende leer om suksesvolle hulpmiddelinteraksies te bevoordeel. Hierdie pos ondersoek hoe SageMaker KI, deur RLVR te gebruik, agentbetroubaarheid dramaties verbeter, en toon 'n 57% verbetering in hulpmiddeloproep-beloning op ongesiene scenario's met 'n fyngeinstelde Qwen 2.5 7B Instruct-model.
Die Belofte en Gevare van Agentiese Hulpmiddeloproepe
Die konsep van KI-agente wat met eksterne stelsels via gereedskap interaksie het, is 'n hoeksteen van gevorderde KI-toepassings. Stel jou 'n agent voor wat vlugte kan bespreek, dokumente uit 'n databasis kan opsom, of selfs kode kan uitvoer gebaseer op 'n natuurlike taalprompt. Hierdie funksionaliteit is presies wat agentiese hulpmiddeloproepe moontlik maak. Tog is die pad na betroubare gereedskapgebruik vol uitdagings.
Basiese GTM's, hoewel kragtig in taalgenerering, beskik dikwels nie oor die genuanseerde begrip wat vir presiese hulpmiddeloproep nodig is nie. Hulle kan 'n gereedskap aflei wat nie bestaan nie, gebruiker se bedoeling verkeerd interpreteer wat lei tot verkeerde parameterwaardes, of versuim om te erken wanneer kritieke inligting ontbreek. Hierdie misstappe lei tot frustrerende gebruikerservarings en maak ondernemingsvlak-ontplooiing riskant. Vir organisasies wat KI-agente effektief wil operasionaliseer, is die verseker van voorspelbare en betroubare hulpmiddeluitvoering van uiterste belang. Die belange is hoog, aangesien betroubare agente ongekende vlakke van outomatisering en doeltreffendheid kan ontsluit, terwyl onbetroubares kan lei tot duur foute en gebruikerontevredenheid. Dit is hoekom robuuste modeloptimalisering vir agentiese werkstrome noodsaaklik is, 'n taak wat eenvoudiger gemaak word met platforms soos SageMaker KI.
Bedienervrye Modelaanpassing: SageMaker KI se Voordeel
Die tradisionele benadering tot die verbetering van GTM-prestasie behels dikwels beduidende infrastruktuurbestuur – van GPU-verkryging en geheue-orkestrasie tot komplekse beloningsinfrastruktuur en kontrolepunte vir versterkingsleer. Hierdie take bring aansienlike operasionele oorhoofse koste mee, wat waardevolle ontwikkelaarhulpbronne aflei van die fokus op die kernprobleem: die verfyning van modelgedrag.
Amazon SageMaker KI se bedienerlose modelaanpassing verwyder hierdie las. Ontwikkelaars kan 'n fondamentmodel kies (bv. Qwen, Llama, GPT-OSS), 'n fyninstellingstegniek soos RLVR konfigureer, na hul data wys, en 'n beloningsfunksie definieer. SageMaker KI bestuur dan die hele agterkantproses, van die skaal van rekenaarhulpbronne tot die bestuur van opleidingsfases en hiperparameter-instelling. Hierdie abstraksie stel spanne in staat om op datastelkwaliteit en beloningsfunksie-ontwerp te konsentreer, wat die ware drywers van modelverbetering is. Vir ondernemings vertaal hierdie bedienerlose benadering in vinniger iterasiesiklusse, verminderde koste, en 'n laer toegangsversperring vir gevorderde GTM-aanpassing. Dit is 'n spelwisselaar vir diegene wat KI vir almal wil skaal deur komplekse fynstelling van GTM's-prosesse te vereenvoudig.
Waarom RLVR Uitblink vir Agentiese Hulpmiddeloproepe
Wanneer dit kom by die onderrig van 'n KI-agent om gereedskap betroubaar te gebruik, is nie alle fyninstellingstegnieke ewe goed nie. Begeleide Fyninstelling (SFT) vereis noukeurig geëtiketteerde voorbeelde vir elke moontlike gedrag wat 'n model moet toon – 'n hulpmiddel oproep, vir verduideliking vra, of 'n versoek weier. Die uitdaging met SFT is sy stryd om die besluitnemingsproses tussen hierdie afsonderlike gedrag te veralgemeen, wat dikwels goed presteer op patrone wat tydens opleiding gesien is, maar faal op nuwe scenario's.
Versterkingsleer met Verifieerbare Belonings (RLVR) bied 'n meer dinamiese en effektiewe oplossing. Anders as SFT, werk RLVR op 'n terugvoerlus:
- Kandidaatgenerering: Vir elke aanwysing genereer die model verskeie (bv. agt) potensiële antwoorde.
- Beloningsfunksie-evaluering: 'n Vooraf gedefinieerde
beloningsfunksiebeoordeel elke kandidaat objektief, wat die kwaliteit, korrektheid en nakoming van gewenste gedrag aandui (bv. het dit die regte gereedskap met die korrekte parameters opgeroep?). - Beleidsopdatering: Deur Groep Relatiewe Beleidsoptimering (GRPO) te gebruik, word die model se beleid opgedateer om antwoorde te versterk wat bo die gemiddelde van die gegenereerde groep getel het. Hierdie proses lei die model iteratief na meer optimale gedrag.
Hierdie iteratiewe leer stel die model in staat om nie net te verstaan hoe om 'n spesifieke aksie uit te voer nie, maar wanneer om dit te doen. Dit leer die nuanses van die onderskeid tussen situasies waar 'n hulpmiddeloproep gepas is, verduideliking nodig is, of weiering die beste aksie is. Omdat hulpmiddeloproepe 'n natuurlik verifieerbare doelwit het – of die model die regte funksie met die regte parameters opgeroep het – pas dit uitsonderlik goed by die RLVR-paradigma, wat dit ideaal maak vir KI-agente wat hoë betroubaarheid vereis. Hierdie metode spreek die uitdaging van die ontwerp van agente om aanwysingsinspuiting te weerstaan effektief aan deur presiese aksiepatrone te versterk.
Voorbereiding van Hoëgehalte Opleidingsdata vir RLVR
Die sukses van enige fyninstellingpoging, veral met RLVR, hang af van die kwaliteit en volledigheid van die opleidingsdata. Vir agentiese hulpmiddeloproepe moet die datastel die model meer leer as net korrekte API-aanroepe; dit moet die volle spektrum van vereiste agentgedrag omvat.
Ons benadering het die generering van 1 500 sintetiese opleidingvoorbeelde behels deur Kiro, Amazon se KI-gedrewe IDE, te gebruik. Hierdie voorbeelde het vyf afsonderlike gereedskapskemas gedek: get_weather_forecast, search_flights, translate_text, currency_convert, en get_statistics. Wat van deurslaggewende belang is, is dat die data oor drie primêre agentgedrag versprei is om gebalanseerde leer te verseker:
| Gedrag | Beskrywing | Persentasie | Ware Waarde Voorbeeld |
|---|---|---|---|
| Uitvoer | Gebruiker verskaf alle nodige parameters, model moet 'n gereedskap oproep. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Verduidelik | Gebruiker se versoek ontbreek vereiste parameters, model moet vir verduideliking vra. | 25% | Om jou van die weerinligting te voorsien, kan jy asseblief die ligging spesifiseer? |
| Weier | Versoek is skadelik of buite omvang, model moet beleefd weier. | 15% | Ek is jammer, ek kan nie daardie versoek uitvoer nie. |
Elke opleidingvoorbeeld het 'n JSONL-formaat gevolg, insluitend 'n aanwysing (stelselinstruksie en gebruikerversoek) en 'n ground_truth in die reward_model-veld waarteenoor die beloningsfunksie punte aanteken. Die afwisseling van frase tussen formeel, informeel en kortaf het die datastel se robuustheid verder verbeter. Hoewel sintetiese data 'n praktiese beginpunt bied, kan organisasies met bestaande agentiese werkstrome werklike gebruikersaanwysings en gereedskapoproepe uit produksielogboeke benut om selfs hoër kwaliteit opleiding te behaal. Hierdie datavoorbereiding is 'n kritieke stap in aanwysingsingenieurswese vir komplekse agentgedrag.
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get weather for San Francisco"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Fynstelling van Qwen 2.5 7B Instruct met SageMaker KI
Die proses om 'n model soos Qwen 2.5 7B Instruct binne Amazon SageMaker KI Studio fyn te instel, is vaartbelyn en intuïtief. Nadat verseker is dat die nodige voorvereistes (AWS-rekening, IAM-rol, SageMaker KI-domein, S3-emmer) nagekom is, kan gebruikers na die Modelle-afdeling in die SageMaker KI Studio navigeer.
Van daar, deur Qwen 2.5 7B Instruct te kies en Pasmaak met UI te kies, maak 'n toegewyde konfigurasiebladsy oop. Hierdie koppelvlak maak voorsiening vir:
- Tegniekseleksie: Die eksplisiete keuse van
Versterkingsleer met Verifieerbare Belonings (RLVR)uit die aftreklys. - Data-invoer: Verwysing na die voorbereide opleidingsdata wat in 'n Amazon S3-emmer gestoor is.
- Beloningsfunksie: Die konfigureer van die trapsgewyse tellingmeganisme wat definieer hoe kandidaatantwoorde teen die
ground_truthgeëvalueer word. - Hiperparameterkonfigurasie: Die aanpassing van parameters soos bondelgrootte, hoewel SageMaker KI dikwels optimale instellings outomaties hanteer.
SageMaker KI ondersteun 'n diverse reeks modelfamilies, insluitend Amazon Nova, GPT-OSS, Llama, Qwen, en DeepSeek, saam met verskeie tegnieke soos Begeleide Fyninstelling (SFT), Direkte Voorkeuropimalisering (DPO), RLVR, en Versterkingsleer uit KI-terugvoer (RLAIF). Geïntegreerde MLflow-opsporing bied sigbaarheid in opleidings- en valideringsmetrieke, wat prestasiebewaking en iterasie vereenvoudig. Hierdie gebruiksgemak versnel die ontwikkelingslewensiklus dramaties vir ontwikkelaars wat gesofistikeerde github-agentiese-werkstrome bou.
Evaluering en Ontplooiingsukses
Die doeltreffendheid van ons fyngeinstelde Qwen 2.5 7B Instruct-model is streng geëvalueer op terughou-data, insluitend scenario's met heeltemal ongesiene gereedskap—'n deurslaggewende toets vir veralgemening. Die resultate was oortuigend: die fyngeinstelde model het 'n merkwaardige 57% verbetering in hulpmiddeloproep-beloning behaal in vergelyking met die basismodel. Hierdie beduidende sprong in prestasie op scenario's wat dit nie tydens opleiding teëgekom het nie, onderstreep die krag van RLVR in die onderrig van modelle robuuste besluitnemingsvermoëns vir gereedskapinteraksie.
Hierdie verbeterde betroubaarheid vertaal direk na hoër vertroue en sekerheid in die ontplooiing van KI-agente in produksie-omgewings. Deur gevalle van gereedskapshallusinasies, verkeerde parameters en onvanpaste aksies te minimaliseer, kan ondernemings KI-agente vir meer kritieke en sensitiewe take benut. Met SageMaker KI wat die kompleksiteite van modelontplooiing en infrastruktuurbestuur hanteer, kan ontwikkelaars naatloos van fyninstelling na produksie beweeg, en sodoende die volle potensiaal van hul agentiese KI-oplossings verwesenlik. Hierdie vermoë strook met die breër visie van operasionalisering van agentiese KI vir werklike impak.
Samevattend bied die kombinasie van Amazon SageMaker KI se bedienerlose modelaanpassing en die robuuste leervermoëns van RLVR 'n kragtige weg na die bou van hoogs betroubare agentiese hulpmiddeloproep-stelsels. Hierdie innoverende benadering versnel ontwikkeling, verminder operasionele las, en lewer uiteindelik KI-agente wat met ongekende akkuraatheid en betroubaarheid presteer.
Oorspronklike bron
https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/Gereelde Vrae
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Bly op hoogte
Kry die nuutste KI-nuus in jou inkassie.
