SageMaker AI: Kuharakisha Wito wa Zana wa Kiaojezi kwa Ubinafsishaji Usiohitaji Seva

AI ya Kiaojezi imebadilisha jinsi tunavyofikiria kuhusu kazi za kiotomatiki, ikiwezesha mifumo kufanya maamuzi na kuingiliana na ulimwengu kupitia zana maalum. Hata hivyo, umuhimu halisi wa maajenti wa AI katika uzalishaji unategemea uwezo wao wa kufanya kwa uhakika wito wa zana wa kiaojezi. Huu ndio jinsi maajenti wanavyohoji hifadhidata, huanzisha mtiririko tata wa kazi, hupata data ya wakati halisi, na kutenda kwa uamuzi kwa niaba ya mtumiaji. Kwa bahati mbaya, kizuizi cha kawaida cha kuenea kwa matumizi kimekuwa tabia ya modeli kubwa za lugha (LLM) za kuzua zana, kupitisha vigezo visivyo sahihi, au kujaribu vitendo wakati ufafanuzi unahitajika. Kushindwa kama huku kunapunguza imani na kuzuia sana uwekaji wa uzalishaji.

Amazon SageMaker AI inajitokeza kutatua changamoto hizi muhimu. Kwa kutoa ubinafsishaji wa modeli usiohitaji seva, waendelezaji wanaweza kurekebisha LLM kwa wito thabiti wa zana wa kiaojezi bila mzigo wa kawaida wa uendeshaji. Muhimu katika uvumbuzi huu ni Kujifunza kwa Kuimarishwa kwa Zawadi Zinazoweza Kuthibitishwa (RLVR), mbinu inayowezesha modeli kuzalisha na kuthibitisha majibu yake mwenyewe, ikijifunza kupendelea mwingiliano wa zana uliofanikiwa. Chapisho hili linachunguza jinsi SageMaker AI, ikitumia RLVR, inavyoboresha kwa kiasi kikubwa utegemeaji wa ajenti, ikionyesha uboreshaji wa 57% katika zawadi ya wito wa zana katika hali zisizoonekana na modeli ya Qwen 2.5 7B Instruct iliyorekebishwa.

Ahadi na Hatari za Wito wa Zana wa Kiaojezi

Dhana ya maajenti wa AI wanaointeract na mifumo ya nje kupitia zana ni msingi wa matumizi ya juu ya AI. Hebu fikiria ajenti anayeweza kuweka nafasi ya ndege, kufupisha hati kutoka kwenye hifadhidata, au hata kutekeleza msimbo kulingana na agizo la lugha asilia. Utendaji huu ndio hasa wito wa zana wa kiaojezi unawewezesha. Hata hivyo, njia ya matumizi ya zana yenye uhakika imejaa changamoto.

LLM za msingi, ingawa zina nguvu katika uzalishaji wa lugha, mara nyingi hukosa uelewa wa kina unaohitajika kwa uombaji sahihi wa zana. Zinaweza kudhani zana isiyokuwepo, kutafsiri vibaya nia ya mtumiaji na kusababisha maadili yasiyo sahihi ya vigezo, au kushindwa kutambua wakati habari muhimu inakosekana. Makosa haya husababisha uzoefu wa kutatanisha kwa mtumiaji na kufanya uwekaji wa kiwango cha biashara kuwa hatari. Kwa mashirika yanayotafuta kuendesha maajenti wa AI kwa ufanisi, kuhakikisha utekelezaji wa zana unaotabirika na wa kuaminika ni muhimu sana. Hatari ni kubwa, kwani maajenti wanaotegemewa wanaweza kufungua viwango visivyotarajiwa vya otomatiki na ufanisi, wakati wale wasiotegemewa wanaweza kusababisha makosa ya gharama kubwa na kutoridhika kwa mtumiaji. Ndio maana uboreshaji wa modeli thabiti kwa mtiririko wa kazi wa kiaojezi ni muhimu, kazi iliyorahisishwa na majukwaa kama SageMaker AI.

Ubinafsishaji wa Modeli Usiohitaji Seva: Faida ya SageMaker AI

Njia ya kitamaduni ya kuboresha utendaji wa LLM mara nyingi inajumuisha usimamizi mkubwa wa miundombinu – kutoka kwa ununuzi wa GPU na uratibu wa kumbukumbu hadi miundombinu tata ya zawadi na uhakiki wa uhifadhi kwa kujifunza kwa kuimarishwa. Kazi hizi huleta mzigo wa uendeshaji mkubwa, zikielekeza rasilimali muhimu za waendelezaji kutoka kuzingatia shida kuu: kuboresha tabia ya modeli.

Ubinafsishaji wa modeli usiohitaji seva wa Amazon SageMaker AI unaondoa mzigo huu. Waendelezaji wanaweza kuchagua modeli msingi (k.m., Qwen, Llama, GPT-OSS), kusanidi mbinu ya kurekebisha kama RLVR, kuelekeza data yao, na kufafanua kazi ya zawadi. SageMaker AI kisha inasimamia mchakato mzima wa nyuma, kutoka kwa kuongeza rasilimali za kompyuta hadi kusimamia awamu za mafunzo na urekebishaji wa vigezo vya juu. Ujumlishaji huu huruhusu timu kuzingatia ubora wa hifadhidata na muundo wa kazi ya zawadi, ambavyo ndio viendeshaji halisi vya uboreshaji wa modeli. Kwa biashara, mbinu hii isiyo na seva inatafsiriwa kuwa mizunguko ya haraka ya kurudia, kupunguza gharama, na kizuizi kidogo cha kuingia kwa ubinafsishaji wa hali ya juu wa LLM. Ni mabadiliko makubwa kwa wale wanaotaka kuongeza AI kwa kila mtu kwa kurahisisha michakato tata ya urekebishaji wa LLM.

Kwa Nini RLVR Inazidi kwa Wito wa Zana wa Kiaojezi

Linapokuja suala la kufundisha ajenti wa AI kutumia zana kwa uhakika, si mbinu zote za kurekebisha zimeundwa sawa. Supervised Fine-Tuning (SFT) inahitaji mifano iliyoandikwa kwa uangalifu kwa kila tabia inayowezekana ambayo modeli inapaswa kuonyesha – kuita zana, kuomba ufafanuzi, au kukataa ombi. Changamoto na SFT ni juhudi zake za kujumlisha mchakato wa kufanya maamuzi kati ya tabia hizi tofauti, mara nyingi hufanya vizuri kwenye mifumo iliyoonekana wakati wa mafunzo lakini ikiyumba kwenye hali mpya.

Kujifunza kwa Kuimarishwa kwa Zawadi Zinazoweza Kuthibitishwa (RLVR) inatoa suluhisho la nguvu zaidi na lenye ufanisi. Tofauti na SFT, RLVR inafanya kazi kwenye kitanzi cha maoni:

Uzalishaji wa Majibu Yanayowezekana: Kwa kila agizo, modeli inazalisha majibu kadhaa (k.m., nane) yanayowezekana.
Tathmini ya Kazi ya Zawadi: Kazi ya zawadi iliyobainishwa awali huipa alama kwa uwazi kila jibu linalowezekana, ikionyesha ubora wake, usahihi, na uzingatiaji wa tabia inayotarajiwa (k.m., iliita zana sahihi na vigezo sahihi?).
Sasisho la Sera: Kwa kutumia Group Relative Policy Optimization (GRPO), sera ya modeli inasasishwa ili kuimarisha majibu yaliyopata alama za juu kuliko wastani wa kikundi kilichozalishwa. Mchakato huu unaelekeza modeli mara kwa mara kuelekea tabia bora zaidi.

Kujifunza huku kwa kurudia kunawezesha modeli kuelewa si tu jinsi ya kufanya kitendo maalum, bali lini kukifanya. Inajifunza nuances ya kutofautisha kati ya hali ambapo wito wa zana unafaa, ufafanuzi unahitajika, au kukataa ni hatua bora zaidi. Kwa sababu wito wa zana una lengo linaloweza kuthibitishwa kiasili—kama modeli iliita kazi sahihi na vigezo sahihi—inalingana vizuri sana na mtindo wa RLVR, na kuifanya iwe bora kwa maajenti wa AI wanaohitaji kutegemewa sana. Njia hii inashughulikia kwa ufanisi changamoto ya kuunda maajenti wanaokabiliana na kudungwa kwa agizo kwa kuimarisha mifumo sahihi ya hatua.

Kuandaa Data ya Mafunzo ya Ubora wa Juu kwa RLVR

Mafanikio ya juhudi yoyote ya kurekebisha, haswa na RLVR, yanategemea ubora na ukamilifu wa data ya mafunzo. Kwa wito wa zana wa kiaojezi, hifadhidata lazima ifundishe modeli zaidi ya uombaji sahihi wa API; inahitaji kujumuisha wigo kamili wa tabia za ajenti zinazohitajika.

Njia yetu ilijumuisha kuzalisha mifano 1,500 ya mafunzo bandia kwa kutumia Kiro, IDE ya Amazon inayoendeshwa na AI. Mifano hii ilifunika miundo mitano tofauti ya zana: get_weather_forecast, search_flights, translate_text, currency_convert, na get_statistics. Muhimu, data ilisambazwa katika tabia tatu kuu za ajenti ili kuhakikisha ujifunzaji uliosawazika:

Tabia	Maelezo	Asilimia	Mfano wa Ukweli Halisi
Tekeleza	Mtumiaji anatoa vigezo vyote muhimu, modeli inapaswa kuita zana.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Fafanua	Ombi la mtumiaji linakosa vigezo vinavyohitajika, modeli inapaswa kuomba ufafanuzi.	25%	`Ili kukupa taarifa za hali ya hewa, unaweza kutaja eneo?`
Kataa	Ombi ni hatari au nje ya upeo, modeli inapaswa kukataa kwa adabu.	15%	`Samahani, siwezi kutimiza ombi hilo.`

Kila mfano wa mafunzo ulifuata umbizo la JSONL, ikijumuisha agizo (maelekezo ya mfumo na ombi la mtumiaji) na ground_truth katika sehemu ya reward_model ambayo kazi ya zawadi huipa alama. Misemo tofauti kati ya rasmi, isiyo rasmi, na fupi iliboresha zaidi ugumu wa hifadhidata. Ingawa data bandia inatoa mwanzo mzuri, mashirika yenye mtiririko wa kazi wa kiaojezi uliopo yanaweza kutumia maagizo halisi ya mtumiaji na wito wa zana kutoka kwa kumbukumbu za uzalishaji ili kufikia mafunzo ya ubora wa juu zaidi. Maandalizi haya ya data ni hatua muhimu katika uhandisi wa maagizo kwa tabia tata za ajenti.

{
  "prompt": [
    {"role": "system", "content": "Wewe ni msaidizi mwenye manufaa. Unapotumia zana, jibu kwa: [...]"},
    {"role": "user", "content": "Pata hali ya hewa kwa San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "Wewe ni msaidizi mwenye manufaa. Unapotumia zana, jibu kwa: [...]"},
    {"role": "user", "content": "Pata hali ya hewa"}
  ],
  "reward_model": {
    "ground_truth": "Ili kukupa taarifa za hali ya hewa, unaweza kutaja eneo?"
  }
}

Kurekebisha Qwen 2.5 7B Instruct na SageMaker AI

Mchakato wa kurekebisha modeli kama Qwen 2.5 7B Instruct ndani ya Amazon SageMaker AI Studio umerekebishwa na ni rahisi. Baada ya kuhakikisha mahitaji ya awali muhimu (akaunti ya AWS, jukumu la IAM, kikoa cha SageMaker AI, S3 bucket) yametimizwa, watumiaji wanaweza kwenda kwenye sehemu ya Models katika SageMaker AI Studio.

Kutoka hapo, kuchagua Qwen 2.5 7B Instruct na kuchagua Customize with UI kunafungua ukurasa wa usanidi maalum. Kiolesura hiki kinaruhusu:

Uchaguzi wa Mbinu: Kuchagua waziwazi Kujifunza kwa Kuimarishwa kwa Zawadi Zinazoweza Kuthibitishwa (RLVR) kutoka kwenye menyu kunjuzi.
Ingizo la Data: Kuelekeza kwenye data ya mafunzo iliyoandaliwa iliyohifadhiwa katika Amazon S3 bucket.
Kazi ya Zawadi: Kusanidi utaratibu wa kuweka alama kulingana na viwango unaofafanua jinsi majibu yanayowezekana yanavyotathminiwa dhidi ya ground_truth.
Usanidi wa Vigezo vya Juu: Kurekebisha vigezo kama vile ukubwa wa kundi, ingawa SageMaker AI mara nyingi hushughulikia mipangilio bora kiotomatiki.

SageMaker AI inasaidia anuwai ya familia za modeli, ikiwemo Amazon Nova, GPT-OSS, Llama, Qwen, na DeepSeek, pamoja na mbinu mbalimbali kama vile Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR, na Reinforcement Learning from AI Feedback (RLAIF). Ufuatiliaji wa MLflow uliounganishwa unatoa mwonekano wa metriki za mafunzo na uthibitishaji, kurahisisha ufuatiliaji wa utendaji na marudio. Urahisi huu wa matumizi unaharakisha sana mzunguko wa uendelezaji kwa waendelezaji wanaojenga mtiririko wa kazi wa kiaojezi wa github wa hali ya juu.

Tathmini na Mafanikio ya Kuweka Huduma

Ufanisi wa modeli yetu ya Qwen 2.5 7B Instruct iliyorekebishwa ilitathminiwa kwa uangalifu kwenye data iliyowekwa kando, ikiwemo hali zenye zana zisizoonekana kabisa—jaribio muhimu kwa ujumlishaji. Matokeo yalikuwa ya kuvutia: modeli iliyorekebishwa ilifanikisha uboreshaji wa 57% katika zawadi ya wito wa zana ikilinganishwa na modeli ya msingi. Uboreshaji huu mkubwa katika utendaji kwenye hali ambazo haikukutana nazo wakati wa mafunzo unasisitiza nguvu ya RLVR katika kufundisha modeli uwezo thabiti wa kufanya maamuzi kwa mwingiliano wa zana.

Uhakikisho huu ulioboreshwa unatafsiriwa moja kwa moja kuwa imani na ujasiri mkubwa katika kuweka maajenti wa AI katika mazingira ya uzalishaji. Kwa kupunguza matukio ya kuzua zana, vigezo visivyo sahihi, na vitendo visivyofaa, biashara zinaweza kutumia maajenti wa AI kwa kazi muhimu zaidi na nyeti. Huku SageMaker AI ikishughulikia ugumu wa uwekaji wa modeli na usimamizi wa miundombinu, waendelezaji wanaweza kuhama bila mshono kutoka kurekebisha hadi uzalishaji, wakitambua uwezo kamili wa suluhisho zao za AI za kiaojezi. Uwezo huu unalingana na dira pana ya kuendesha AI ya kiaojezi kwa athari halisi duniani.

Kwa muhtasari, mchanganyiko wa ubinafsishaji wa modeli usiohitaji seva wa Amazon SageMaker AI na uwezo thabiti wa kujifunza wa RLVR unatoa njia yenye nguvu ya kujenga mifumo ya wito wa zana wa kiaojezi inayotegemewa sana. Mbinu hii bunifu inaharakisha uendelezaji, inapunguza mzigo wa uendeshaji, na hatimaye inatoa maajenti wa AI wanaofanya kazi kwa usahihi na kutegemewa isiyokuwa ya kawaida.

Chanzo asili

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

Maswali Yanayoulizwa Mara kwa Mara

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

Baki na Habari

Pokea habari za hivi karibuni za AI kwenye barua pepe yako.

Shiriki