Code Velocity
Mga Tool ng Developer

SageMaker AI: Pinapabilis ang Agentic Tool Calling gamit ang Serverless Customization

·5 min basahin·AWS·Orihinal na pinagmulan
I-share
Interface ng Amazon SageMaker AI Studio na nagpapakita ng mga opsyon para sa serverless model customization at agentic tool calling.

SageMaker AI: Pinapabilis ang Agentic Tool Calling gamit ang Serverless Customization

Binago ng Agentic AI ang paraan ng pag-iisip natin tungkol sa mga awtomatikong gawain, na nagbibigay-daan sa mga sistema na gumawa ng mga desisyon at makipag-ugnayan sa mundo sa pamamagitan ng mga espesyal na tool. Gayunpaman, ang tunay na utility ng mga ahente ng AI sa produksyon ay nakasalalay sa kanilang kakayahang mapagkakatiwalaang magsagawa ng agentic tool calling. Ito ang paraan kung paano nagtatanong ang mga ahente sa mga database, nag-trigger ng kumplikadong mga workflow, kumukuha ng real-time na data, at kumikilos nang mapagpasya sa ngalan ng isang user. Sa kasamaang palad, ang isang karaniwang hadlang sa malawakang paggamit ay ang tendensya ng mga batayang malalaking modelo ng wika (LLMs) na mag-hallucinate ng mga tool, magpasa ng maling parameter, o subukang magsagawa ng mga aksyon kung kailan kailangan ng paglilinaw. Ang mga pagkabigong ito ay nakakasira sa tiwala at lubos na nakahahadlang sa pag-deploy sa produksyon.

Ang Amazon SageMaker AI ay kumikilos upang lutasin ang mga kritikal na hamong ito. Sa pamamagitan ng pag-aalok ng serverless model customization, maaaring i-fine-tune ng mga developer ang mga LLM para sa matatag na agentic tool calling nang walang karaniwang operational overhead. Mahalaga sa inobasyong ito ang Reinforcement Learning with Verifiable Rewards (RLVR), isang pamamaraan na nagbibigay-kapangyarihan sa mga modelo na bumuo at mag-validate ng sarili nilang mga tugon, na natututong paboran ang matagumpay na pakikipag-ugnayan sa tool. Sinasaliksik ng post na ito kung paano dramatically na pinapabuti ng SageMaker AI, gamit ang RLVR, ang pagiging maaasahan ng ahente, na nagpapakita ng 57% na pagpapabuti sa tool call reward sa hindi pa nakikitang mga senaryo sa isang fine-tuned na modelong Qwen 2.5 7B Instruct.

Ang Pangako at mga Panganib ng Agentic Tool Calling

Ang konsepto ng mga ahente ng AI na nakikipag-ugnayan sa mga panlabas na sistema sa pamamagitan ng mga tool ay isang pundasyon ng mga advanced na aplikasyon ng AI. Isipin ang isang ahente na kayang mag-book ng flight, mag-summarize ng mga dokumento mula sa isang database, o magpatupad pa ng code batay sa isang natural na wika na prompt. Ang pagpapaandar na ito ang siyang tiyak na nagbibigay-kakayahan sa agentic tool calling. Gayunpaman, ang landas tungo sa mapagkakatiwalaang paggamit ng tool ay puno ng hamon.

Ang mga batayang LLM, bagama't makapangyarihan sa pagbuo ng wika, ay madalas na kulang sa detalyadong pag-unawa na kinakailangan para sa tumpak na pagtawag ng tool. Maaari silang maghinuha ng tool na hindi umiiral, mali ang pagpapakahulugan sa intensyon ng user na humahantong sa maling parameter values, o hindi makilala kung kailan may nawawalang kritikal na impormasyon. Ang mga maling hakbang na ito ay humahantong sa nakakabigo na karanasan ng user at nagpapataas ng panganib sa enterprise-level deployment. Para sa mga organisasyon na naghahanap upang epektibong patakbuhin ang mga ahente ng AI, ang pagtiyak ng predictable at mapagkakatiwalaang pagpapatupad ng tool ay pinakamahalaga. Mataas ang stakes, dahil ang maaasahang ahente ay maaaring magbukas ng walang kapantay na antas ng automation at kahusayan, habang ang hindi maaasahang ahente ay maaaring humantong sa mamahaling pagkakamali at hindi kasiyahan ng user. Ito ang dahilan kung bakit mahalaga ang matatag na pag-optimize ng modelo para sa mga agentic workflow, isang gawain na ginagawang mas simple sa mga platform tulad ng SageMaker AI.

Serverless Model Customization: Ang Kalamangan ng SageMaker AI

Ang tradisyonal na diskarte sa pagpapabuti ng performance ng LLM ay madalas na nagsasangkot ng malaking pamamahala sa imprastraktura – mula sa pagkuha ng GPU at memory orchestration hanggang sa kumplikadong reward infrastructure at checkpointing para sa reinforcement learning. Ang mga gawaing ito ay nagdadala ng malaking operational overhead, na naglihis ng mahahalagang mapagkukunan ng developer mula sa pagtutok sa pangunahing problema: pagpino sa gawi ng modelo.

Inaalis ng serverless model customization ng Amazon SageMaker AI ang pasaning ito. Maaaring pumili ang mga developer ng foundation model (hal., Qwen, Llama, GPT-OSS), mag-configure ng fine-tuning technique tulad ng RLVR, ituro ang kanilang data, at tukuyin ang isang reward function. Pinangangasiwaan ng SageMaker AI ang buong proseso ng backend, mula sa scaling ng compute resources hanggang sa pamamahala ng training phases at hyperparameter tuning. Ang abstraction na ito ay nagpapahintulot sa mga team na mag-concentrate sa kalidad ng dataset at disenyo ng reward function, na siyang tunay na nagtutulak sa pagpapabuti ng modelo. Para sa mga enterprise, ang serverless approach na ito ay nangangahulugan ng mas mabilis na iteration cycles, nabawasan ang mga gastos, at mas mababang hadlang sa pagpasok para sa advanced na LLM customization. Ito ay isang game-changer para sa mga naghahanap na i-scale ang AI para sa lahat sa pamamagitan ng pagpapasimple ng kumplikadong mga proseso ng fine-tuning LLMs.

Bakit Nagtatampok ang RLVR para sa Agentic Tool Calling

Pagdating sa pagtuturo sa isang ahente ng AI na mapagkakatiwalaang gumamit ng mga tool, hindi lahat ng fine-tuning technique ay pantay-pantay. Ang Supervised Fine-Tuning (SFT) ay nangangailangan ng maingat na naka-label na mga halimbawa para sa bawat posibleng gawi na dapat ipakita ng isang modelo – pagtawag ng tool, paghingi ng paglilinaw, o pagtanggi sa isang kahilingan. Ang hamon sa SFT ay ang paghihirap nitong i-generalize ang proseso ng pagdedesisyon sa pagitan ng mga natatanging gawi na ito, madalas na mahusay na gumaganap sa mga pattern na nakita sa panahon ng pagsasanay ngunit nagkakamali sa mga bagong senaryo.

Ang Reinforcement Learning with Verifiable Rewards (RLVR) ay nag-aalok ng mas dynamic at epektibong solusyon. Hindi tulad ng SFT, ang RLVR ay gumagana sa isang feedback loop:

  1. Pagbuo ng Kandidato: Para sa bawat prompt, ang modelo ay bumubuo ng maraming (hal., walong) potensyal na tugon.
  2. Pagsusuri ng Reward Function: Isang paunang natukoy na reward function ang obhetibong nagbibigay ng score sa bawat kandidato, na nagpapahiwatig ng kalidad, kawastuhan, at pagsunod nito sa nais na gawi (hal., tinawag ba nito ang tamang tool na may tamang parameter?).
  3. Pag-update ng Patakaran: Gamit ang Group Relative Policy Optimization (GRPO), ang patakaran ng modelo ay ina-update upang palakasin ang mga tugon na nakakuha ng mas mataas kaysa sa average ng nabuong grupo. Ang prosesong ito ay paulit-ulit na ginagabayan ang modelo tungo sa mas optimal na gawi.

Ang paulit-ulit na pagkatuto na ito ay nagpapahintulot sa modelo na maunawaan hindi lamang kung paano magsagawa ng isang partikular na aksyon, kundi kailan ito isasagawa. Natutunan nito ang mga nuances ng pagkilala sa pagitan ng mga sitwasyon kung saan ang isang tool call ay angkop, kailangan ng paglilinaw, o ang pagtanggi ay ang pinakamahusay na kurso ng aksyon. Dahil ang tool calling ay may likas na verifiable na layunin—kung tinawag ba ng modelo ang tamang function na may tamang parameter—ito ay lubos na akma sa RLVR paradigm, na ginagawa itong perpekto para sa mga ahente ng AI na nangangailangan ng mataas na pagiging maaasahan. Ang pamamaraang ito ay epektibong tinutugunan ang hamon ng pagdidisenyo ng mga ahente upang labanan ang prompt injection sa pamamagitan ng pagpapatibay ng tumpak na mga pattern ng aksyon.

Paghahanda ng De-kalidad na Training Data para sa RLVR

Ang tagumpay ng anumang fine-tuning effort, lalo na sa RLVR, ay nakasalalay sa kalidad at pagiging komprehensibo ng training data. Para sa agentic tool calling, dapat turuan ng dataset ang modelo ng higit pa sa tamang pagtawag sa API; kailangan nitong sakupin ang buong spectrum ng kinakailangang gawi ng ahente.

Ang aming diskarte ay nagsasangkot ng pagbuo ng 1,500 synthetic training examples gamit ang Kiro, ang AI-powered IDE ng Amazon. Sinasaklaw ng mga halimbawang ito ang limang natatanging tool schema: get_weather_forecast, search_flights, translate_text, currency_convert, at get_statistics. Mahalaga, ang data ay ipinamahagi sa tatlong pangunahing gawi ng ahente upang matiyak ang balanseng pagkatuto:

GawiDeskripsyonPorsiyentoHalimbawa ng Ground Truth
MagpatupadNagbibigay ang user ng lahat ng kinakailangang parameter, dapat tawagan ng modelo ang isang tool.60%[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]
MaglinawNawawala ang kinakailangang parameter sa kahilingan ng user, dapat humingi ng paglilinaw ang modelo.25%Upang maibigay ko sa iyo ang impormasyon ng panahon, maaari mo bang tukuyin ang lokasyon?
TanggihanAng kahilingan ay nakakapinsala o wala sa saklaw, dapat magalang na tanggihan ng modelo.15%Paumanhin, hindi ko matutupad ang kahilingan na iyan.

Bawat training example ay sumunod sa format na JSONL, kasama ang isang prompt (system instruction at user request) at isang ground_truth sa reward_model field na siniscorean ng reward function. Ang iba't ibang pagkakabuo ng parirala sa pagitan ng pormal, kaswal, at maigsi ay lalo pang nagpapahusay sa katatagan ng dataset. Bagama't ang synthetic data ay nagbibigay ng praktikal na panimulang punto, ang mga organisasyon na may umiiral nang agentic workflows ay maaaring gumamit ng mga tunay na user prompt at tool call mula sa production logs upang makamit ang mas mataas na kalidad ng pagsasanay. Ang paghahanda ng data na ito ay isang kritikal na hakbang sa prompt engineering para sa kumplikadong gawi ng ahente.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}
{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

Fine-Tuning ng Qwen 2.5 7B Instruct gamit ang SageMaker AI

Ang proseso ng fine-tuning ng isang modelo tulad ng Qwen 2.5 7B Instruct sa loob ng Amazon SageMaker AI Studio ay pinasimple at madaling gamitin. Pagkatapos tiyakin na natugunan ang mga kinakailangang prerequisites (AWS account, IAM role, SageMaker AI domain, S3 bucket), maaaring mag-navigate ang mga user sa seksyong Models sa SageMaker AI Studio.

Mula doon, ang pagpili ng Qwen 2.5 7B Instruct at pagpili ng Customize with UI ay magbubukas ng isang nakalaang pahina ng configuration. Nagbibigay-daan ang interface na ito para sa:

  • Pagpili ng Technique: Tahasang pagpili ng Reinforcement Learning with Verifiable Rewards (RLVR) mula sa dropdown.
  • Pag-input ng Data: Pagtukoy sa inihandang training data na nakaimbak sa isang Amazon S3 bucket.
  • Reward Function: Pag-configure ng tiered scoring mechanism na tumutukoy kung paano sinusuri ang mga kandidatong tugon laban sa ground_truth.
  • Hyperparameter Configuration: Pag-aayos ng mga parameter tulad ng batch size, bagama't madalas na pinangangasiwaan ng SageMaker AI ang mga optimal na setting nang awtomatiko.

Sinusuportahan ng SageMaker AI ang magkakaibang hanay ng mga pamilya ng modelo, kabilang ang Amazon Nova, GPT-OSS, Llama, Qwen, at DeepSeek, kasama ng iba't ibang pamamaraan tulad ng Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR, at Reinforcement Learning from AI Feedback (RLAIF). Ang integrated MLflow tracking ay nagbibigay ng visibility sa training at validation metrics, na nagpapasimple sa pagsubaybay sa performance at iteration. Ang kadalian ng paggamit na ito ay lubos na nagpapabilis sa development lifecycle para sa mga developer na bumubuo ng sopistikadong github-agentic-workflows.

Pagsusuri at Tagumpay sa Deployment

Ang bisa ng aming fine-tuned na modelong Qwen 2.5 7B Instruct ay mahigpit na sinuri sa held-out data, kabilang ang mga senaryo na may ganap na hindi pa nakikitang tool—isang mahalagang pagsubok para sa generalization. Ang mga resulta ay kapani-paniwala: nakamit ng fine-tuned na modelo ang kahanga-hangang 57% na pagpapabuti sa tool call reward kumpara sa batayang modelo. Ang makabuluhang pagtalon na ito sa performance sa mga senaryo na hindi nito nakatagpo sa panahon ng pagsasanay ay nagpapakita ng kapangyarihan ng RLVR sa pagtuturo sa mga modelo ng matatag na kakayahan sa paggawa ng desisyon para sa pakikipag-ugnayan sa tool.

Ang pinahusay na pagiging maaasahan na ito ay direktang isinasalin sa mas mataas na tiwala at kumpiyansa sa pag-deploy ng mga ahente ng AI sa mga production environment. Sa pamamagitan ng pagliit ng mga pagkakataon ng tool hallucinations, maling parameter, at hindi naaangkop na aksyon, maaaring gamitin ng mga negosyo ang mga ahente ng AI para sa mas kritikal at sensitibong mga gawain. Sa SageMaker AI na nangangasiwa sa mga kumplikado ng model deployment at pamamahala ng imprastraktura, ang mga developer ay maaaring walang putol na lumipat mula sa fine-tuning patungo sa produksyon, na napagtatanto ang buong potensyal ng kanilang agentic AI solutions. Ang kakayahang ito ay umaayon sa mas malawak na pananaw ng operationalizing agentic AI para sa epekto sa totoong mundo.

Sa buod, ang kombinasyon ng serverless model customization ng Amazon SageMaker AI at ang matatag na kakayahan sa pagkatuto ng RLVR ay nagbibigay ng makapangyarihang landas sa pagbuo ng lubos na maaasahang agentic tool calling system. Pinapabilis ng makabagong diskarteng ito ang pag-develop, binabawasan ang operational burden, at sa huli ay naghahatid ng mga ahente ng AI na gumaganap nang may walang kapantay na katumpakan at pagiging mapagkakatiwalaan.

Mga Karaniwang Tanong

What is agentic tool calling and why is it crucial for AI agents?
Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.
What are the common challenges AI agents face when performing tool calls?
AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.
How does Amazon SageMaker AI address the challenges of agentic tool calling?
Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.
What prerequisites are needed to use serverless model customization in SageMaker AI?
To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

Manatiling Updated

Kunin ang pinakabagong AI news sa iyong inbox.

I-share