SageMaker AI: Pinapabilis ang Agentic Tool Calling gamit ang Serverless Customization
Binago ng Agentic AI ang paraan ng pag-iisip natin tungkol sa mga awtomatikong gawain, na nagbibigay-daan sa mga sistema na gumawa ng mga desisyon at makipag-ugnayan sa mundo sa pamamagitan ng mga espesyal na tool. Gayunpaman, ang tunay na utility ng mga ahente ng AI sa produksyon ay nakasalalay sa kanilang kakayahang mapagkakatiwalaang magsagawa ng agentic tool calling. Ito ang paraan kung paano nagtatanong ang mga ahente sa mga database, nag-trigger ng kumplikadong mga workflow, kumukuha ng real-time na data, at kumikilos nang mapagpasya sa ngalan ng isang user. Sa kasamaang palad, ang isang karaniwang hadlang sa malawakang paggamit ay ang tendensya ng mga batayang malalaking modelo ng wika (LLMs) na mag-hallucinate ng mga tool, magpasa ng maling parameter, o subukang magsagawa ng mga aksyon kung kailan kailangan ng paglilinaw. Ang mga pagkabigong ito ay nakakasira sa tiwala at lubos na nakahahadlang sa pag-deploy sa produksyon.
Ang Amazon SageMaker AI ay kumikilos upang lutasin ang mga kritikal na hamong ito. Sa pamamagitan ng pag-aalok ng serverless model customization, maaaring i-fine-tune ng mga developer ang mga LLM para sa matatag na agentic tool calling nang walang karaniwang operational overhead. Mahalaga sa inobasyong ito ang Reinforcement Learning with Verifiable Rewards (RLVR), isang pamamaraan na nagbibigay-kapangyarihan sa mga modelo na bumuo at mag-validate ng sarili nilang mga tugon, na natututong paboran ang matagumpay na pakikipag-ugnayan sa tool. Sinasaliksik ng post na ito kung paano dramatically na pinapabuti ng SageMaker AI, gamit ang RLVR, ang pagiging maaasahan ng ahente, na nagpapakita ng 57% na pagpapabuti sa tool call reward sa hindi pa nakikitang mga senaryo sa isang fine-tuned na modelong Qwen 2.5 7B Instruct.
Ang Pangako at mga Panganib ng Agentic Tool Calling
Ang konsepto ng mga ahente ng AI na nakikipag-ugnayan sa mga panlabas na sistema sa pamamagitan ng mga tool ay isang pundasyon ng mga advanced na aplikasyon ng AI. Isipin ang isang ahente na kayang mag-book ng flight, mag-summarize ng mga dokumento mula sa isang database, o magpatupad pa ng code batay sa isang natural na wika na prompt. Ang pagpapaandar na ito ang siyang tiyak na nagbibigay-kakayahan sa agentic tool calling. Gayunpaman, ang landas tungo sa mapagkakatiwalaang paggamit ng tool ay puno ng hamon.
Ang mga batayang LLM, bagama't makapangyarihan sa pagbuo ng wika, ay madalas na kulang sa detalyadong pag-unawa na kinakailangan para sa tumpak na pagtawag ng tool. Maaari silang maghinuha ng tool na hindi umiiral, mali ang pagpapakahulugan sa intensyon ng user na humahantong sa maling parameter values, o hindi makilala kung kailan may nawawalang kritikal na impormasyon. Ang mga maling hakbang na ito ay humahantong sa nakakabigo na karanasan ng user at nagpapataas ng panganib sa enterprise-level deployment. Para sa mga organisasyon na naghahanap upang epektibong patakbuhin ang mga ahente ng AI, ang pagtiyak ng predictable at mapagkakatiwalaang pagpapatupad ng tool ay pinakamahalaga. Mataas ang stakes, dahil ang maaasahang ahente ay maaaring magbukas ng walang kapantay na antas ng automation at kahusayan, habang ang hindi maaasahang ahente ay maaaring humantong sa mamahaling pagkakamali at hindi kasiyahan ng user. Ito ang dahilan kung bakit mahalaga ang matatag na pag-optimize ng modelo para sa mga agentic workflow, isang gawain na ginagawang mas simple sa mga platform tulad ng SageMaker AI.
Serverless Model Customization: Ang Kalamangan ng SageMaker AI
Ang tradisyonal na diskarte sa pagpapabuti ng performance ng LLM ay madalas na nagsasangkot ng malaking pamamahala sa imprastraktura – mula sa pagkuha ng GPU at memory orchestration hanggang sa kumplikadong reward infrastructure at checkpointing para sa reinforcement learning. Ang mga gawaing ito ay nagdadala ng malaking operational overhead, na naglihis ng mahahalagang mapagkukunan ng developer mula sa pagtutok sa pangunahing problema: pagpino sa gawi ng modelo.
Inaalis ng serverless model customization ng Amazon SageMaker AI ang pasaning ito. Maaaring pumili ang mga developer ng foundation model (hal., Qwen, Llama, GPT-OSS), mag-configure ng fine-tuning technique tulad ng RLVR, ituro ang kanilang data, at tukuyin ang isang reward function. Pinangangasiwaan ng SageMaker AI ang buong proseso ng backend, mula sa scaling ng compute resources hanggang sa pamamahala ng training phases at hyperparameter tuning. Ang abstraction na ito ay nagpapahintulot sa mga team na mag-concentrate sa kalidad ng dataset at disenyo ng reward function, na siyang tunay na nagtutulak sa pagpapabuti ng modelo. Para sa mga enterprise, ang serverless approach na ito ay nangangahulugan ng mas mabilis na iteration cycles, nabawasan ang mga gastos, at mas mababang hadlang sa pagpasok para sa advanced na LLM customization. Ito ay isang game-changer para sa mga naghahanap na i-scale ang AI para sa lahat sa pamamagitan ng pagpapasimple ng kumplikadong mga proseso ng fine-tuning LLMs.
Bakit Nagtatampok ang RLVR para sa Agentic Tool Calling
Pagdating sa pagtuturo sa isang ahente ng AI na mapagkakatiwalaang gumamit ng mga tool, hindi lahat ng fine-tuning technique ay pantay-pantay. Ang Supervised Fine-Tuning (SFT) ay nangangailangan ng maingat na naka-label na mga halimbawa para sa bawat posibleng gawi na dapat ipakita ng isang modelo – pagtawag ng tool, paghingi ng paglilinaw, o pagtanggi sa isang kahilingan. Ang hamon sa SFT ay ang paghihirap nitong i-generalize ang proseso ng pagdedesisyon sa pagitan ng mga natatanging gawi na ito, madalas na mahusay na gumaganap sa mga pattern na nakita sa panahon ng pagsasanay ngunit nagkakamali sa mga bagong senaryo.
Ang Reinforcement Learning with Verifiable Rewards (RLVR) ay nag-aalok ng mas dynamic at epektibong solusyon. Hindi tulad ng SFT, ang RLVR ay gumagana sa isang feedback loop:
- Pagbuo ng Kandidato: Para sa bawat prompt, ang modelo ay bumubuo ng maraming (hal., walong) potensyal na tugon.
- Pagsusuri ng Reward Function: Isang paunang natukoy na
reward functionang obhetibong nagbibigay ng score sa bawat kandidato, na nagpapahiwatig ng kalidad, kawastuhan, at pagsunod nito sa nais na gawi (hal., tinawag ba nito ang tamang tool na may tamang parameter?). - Pag-update ng Patakaran: Gamit ang Group Relative Policy Optimization (GRPO), ang patakaran ng modelo ay ina-update upang palakasin ang mga tugon na nakakuha ng mas mataas kaysa sa average ng nabuong grupo. Ang prosesong ito ay paulit-ulit na ginagabayan ang modelo tungo sa mas optimal na gawi.
Ang paulit-ulit na pagkatuto na ito ay nagpapahintulot sa modelo na maunawaan hindi lamang kung paano magsagawa ng isang partikular na aksyon, kundi kailan ito isasagawa. Natutunan nito ang mga nuances ng pagkilala sa pagitan ng mga sitwasyon kung saan ang isang tool call ay angkop, kailangan ng paglilinaw, o ang pagtanggi ay ang pinakamahusay na kurso ng aksyon. Dahil ang tool calling ay may likas na verifiable na layunin—kung tinawag ba ng modelo ang tamang function na may tamang parameter—ito ay lubos na akma sa RLVR paradigm, na ginagawa itong perpekto para sa mga ahente ng AI na nangangailangan ng mataas na pagiging maaasahan. Ang pamamaraang ito ay epektibong tinutugunan ang hamon ng pagdidisenyo ng mga ahente upang labanan ang prompt injection sa pamamagitan ng pagpapatibay ng tumpak na mga pattern ng aksyon.
Paghahanda ng De-kalidad na Training Data para sa RLVR
Ang tagumpay ng anumang fine-tuning effort, lalo na sa RLVR, ay nakasalalay sa kalidad at pagiging komprehensibo ng training data. Para sa agentic tool calling, dapat turuan ng dataset ang modelo ng higit pa sa tamang pagtawag sa API; kailangan nitong sakupin ang buong spectrum ng kinakailangang gawi ng ahente.
Ang aming diskarte ay nagsasangkot ng pagbuo ng 1,500 synthetic training examples gamit ang Kiro, ang AI-powered IDE ng Amazon. Sinasaklaw ng mga halimbawang ito ang limang natatanging tool schema: get_weather_forecast, search_flights, translate_text, currency_convert, at get_statistics. Mahalaga, ang data ay ipinamahagi sa tatlong pangunahing gawi ng ahente upang matiyak ang balanseng pagkatuto:
| Gawi | Deskripsyon | Porsiyento | Halimbawa ng Ground Truth |
|---|---|---|---|
| Magpatupad | Nagbibigay ang user ng lahat ng kinakailangang parameter, dapat tawagan ng modelo ang isang tool. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Maglinaw | Nawawala ang kinakailangang parameter sa kahilingan ng user, dapat humingi ng paglilinaw ang modelo. | 25% | Upang maibigay ko sa iyo ang impormasyon ng panahon, maaari mo bang tukuyin ang lokasyon? |
| Tanggihan | Ang kahilingan ay nakakapinsala o wala sa saklaw, dapat magalang na tanggihan ng modelo. | 15% | Paumanhin, hindi ko matutupad ang kahilingan na iyan. |
Bawat training example ay sumunod sa format na JSONL, kasama ang isang prompt (system instruction at user request) at isang ground_truth sa reward_model field na siniscorean ng reward function. Ang iba't ibang pagkakabuo ng parirala sa pagitan ng pormal, kaswal, at maigsi ay lalo pang nagpapahusay sa katatagan ng dataset. Bagama't ang synthetic data ay nagbibigay ng praktikal na panimulang punto, ang mga organisasyon na may umiiral nang agentic workflows ay maaaring gumamit ng mga tunay na user prompt at tool call mula sa production logs upang makamit ang mas mataas na kalidad ng pagsasanay. Ang paghahanda ng data na ito ay isang kritikal na hakbang sa prompt engineering para sa kumplikadong gawi ng ahente.
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get weather for San Francisco"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Fine-Tuning ng Qwen 2.5 7B Instruct gamit ang SageMaker AI
Ang proseso ng fine-tuning ng isang modelo tulad ng Qwen 2.5 7B Instruct sa loob ng Amazon SageMaker AI Studio ay pinasimple at madaling gamitin. Pagkatapos tiyakin na natugunan ang mga kinakailangang prerequisites (AWS account, IAM role, SageMaker AI domain, S3 bucket), maaaring mag-navigate ang mga user sa seksyong Models sa SageMaker AI Studio.
Mula doon, ang pagpili ng Qwen 2.5 7B Instruct at pagpili ng Customize with UI ay magbubukas ng isang nakalaang pahina ng configuration. Nagbibigay-daan ang interface na ito para sa:
- Pagpili ng Technique: Tahasang pagpili ng
Reinforcement Learning with Verifiable Rewards (RLVR)mula sa dropdown. - Pag-input ng Data: Pagtukoy sa inihandang training data na nakaimbak sa isang Amazon S3 bucket.
- Reward Function: Pag-configure ng tiered scoring mechanism na tumutukoy kung paano sinusuri ang mga kandidatong tugon laban sa
ground_truth. - Hyperparameter Configuration: Pag-aayos ng mga parameter tulad ng batch size, bagama't madalas na pinangangasiwaan ng SageMaker AI ang mga optimal na setting nang awtomatiko.
Sinusuportahan ng SageMaker AI ang magkakaibang hanay ng mga pamilya ng modelo, kabilang ang Amazon Nova, GPT-OSS, Llama, Qwen, at DeepSeek, kasama ng iba't ibang pamamaraan tulad ng Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR, at Reinforcement Learning from AI Feedback (RLAIF). Ang integrated MLflow tracking ay nagbibigay ng visibility sa training at validation metrics, na nagpapasimple sa pagsubaybay sa performance at iteration. Ang kadalian ng paggamit na ito ay lubos na nagpapabilis sa development lifecycle para sa mga developer na bumubuo ng sopistikadong github-agentic-workflows.
Pagsusuri at Tagumpay sa Deployment
Ang bisa ng aming fine-tuned na modelong Qwen 2.5 7B Instruct ay mahigpit na sinuri sa held-out data, kabilang ang mga senaryo na may ganap na hindi pa nakikitang tool—isang mahalagang pagsubok para sa generalization. Ang mga resulta ay kapani-paniwala: nakamit ng fine-tuned na modelo ang kahanga-hangang 57% na pagpapabuti sa tool call reward kumpara sa batayang modelo. Ang makabuluhang pagtalon na ito sa performance sa mga senaryo na hindi nito nakatagpo sa panahon ng pagsasanay ay nagpapakita ng kapangyarihan ng RLVR sa pagtuturo sa mga modelo ng matatag na kakayahan sa paggawa ng desisyon para sa pakikipag-ugnayan sa tool.
Ang pinahusay na pagiging maaasahan na ito ay direktang isinasalin sa mas mataas na tiwala at kumpiyansa sa pag-deploy ng mga ahente ng AI sa mga production environment. Sa pamamagitan ng pagliit ng mga pagkakataon ng tool hallucinations, maling parameter, at hindi naaangkop na aksyon, maaaring gamitin ng mga negosyo ang mga ahente ng AI para sa mas kritikal at sensitibong mga gawain. Sa SageMaker AI na nangangasiwa sa mga kumplikado ng model deployment at pamamahala ng imprastraktura, ang mga developer ay maaaring walang putol na lumipat mula sa fine-tuning patungo sa produksyon, na napagtatanto ang buong potensyal ng kanilang agentic AI solutions. Ang kakayahang ito ay umaayon sa mas malawak na pananaw ng operationalizing agentic AI para sa epekto sa totoong mundo.
Sa buod, ang kombinasyon ng serverless model customization ng Amazon SageMaker AI at ang matatag na kakayahan sa pagkatuto ng RLVR ay nagbibigay ng makapangyarihang landas sa pagbuo ng lubos na maaasahang agentic tool calling system. Pinapabilis ng makabagong diskarteng ito ang pag-develop, binabawasan ang operational burden, at sa huli ay naghahatid ng mga ahente ng AI na gumaganap nang may walang kapantay na katumpakan at pagiging mapagkakatiwalaan.
Orihinal na pinagmulan
https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/Mga Karaniwang Tanong
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Manatiling Updated
Kunin ang pinakabagong AI news sa iyong inbox.
