SageMaker AI: აგენტური ხელსაწყოების გამოძახების დაჩქარება სერვერული მოდელის მორგებით
აგენტურმა AI-მ მოახდინა რევოლუცია იმაში, თუ როგორ ვფიქრობთ ავტომატიზებულ ამოცანებზე, რაც სისტემებს საშუალებას აძლევს მიიღონ გადაწყვეტილებები და იურთიერთონ სამყაროსთან სპეციალიზებული ხელსაწყოების მეშვეობით. თუმცა, AI აგენტების ნამდვილი სარგებლიანობა საწარმოო გარემოში დამოკიდებულია მათ უნარზე, საიმედოდ შეასრულონ აგენტური ხელსაწყოების გამოძახება. ასე ახორციელებენ აგენტები მონაცემთა ბაზების გამოკითხვას, რთული სამუშაო პროცესების ინიცირებას, რეალურ დროში მონაცემების მოძიებას და მომხმარებლის სახელით გადამწყვეტ მოქმედებას. სამწუხაროდ, ფართო დანერგვისთვის ხშირი დაბრკოლება იყო საბაზისო დიდი ენობრივი მოდელების (LLM) მიდრეკილება, რომ ჰალუცინაციები ჰქონოდათ არარსებული ხელსაწყოების შესახებ, გადაეცათ არასწორი პარამეტრები, ან ეცადათ მოქმედებები, როდესაც საჭირო იყო დაზუსტება. ასეთი წარუმატებლობები ძირს უთხრის ნდობას და მნიშვნელოვნად აფერხებს საწარმოო განლაგებას.
Amazon SageMaker AI ნაბიჯებს დგამს ამ კრიტიკული გამოწვევების გადასაჭრელად. სერვერული მოდელის მორგების შეთავაზებით, დეველოპერებს შეუძლიათ LLM-ების დახვეწა ძლიერი აგენტური ხელსაწყოების გამოძახებისთვის, ტიპიური ოპერაციული დანახარჯების გარეშე. ამ ინოვაციის ცენტრშია გაძლიერებითი სწავლება გადამოწმებადი ჯილდოებით (RLVR), ტექნიკა, რომელიც მოდელებს საშუალებას აძლევს შექმნან და გადაამოწმონ საკუთარი პასუხები, სწავლობენ წარმატებული ხელსაწყოების ურთიერთქმედების უპირატესობას. ეს პოსტი განიხილავს, თუ როგორ აუმჯობესებს SageMaker AI, RLVR-ის გამოყენებით, აგენტების საიმედოობას, აჩვენებს 57%-იან გაუმჯობესებას ხელსაწყოების გამოძახების ჯილდოში უცნობ სცენარებზე, დახვეწილი Qwen 2.5 7B Instruct მოდელით.
აგენტური ხელსაწყოების გამოძახების დაპირებები და საფრთხეები
AI აგენტების გარე სისტემებთან ხელსაწყოების საშუალებით ურთიერთქმედების კონცეფცია მოწინავე AI აპლიკაციების ქვაკუთხედია. წარმოიდგინეთ აგენტი, რომელსაც შეუძლია ფრენების დაჯავშნა, დოკუმენტების შეჯამება მონაცემთა ბაზიდან, ან თუნდაც კოდის შესრულება ბუნებრივი ენის პრომპტის საფუძველზე. სწორედ ამ შესაძლებლობას იძლევა აგენტური ხელსაწყოების გამოძახება. თუმცა, ხელსაწყოების საიმედო გამოყენების გზა სავსეა გამოწვევებით.
საბაზისო LLM-ებს, მიუხედავად იმისა, რომ ისინი ძლიერია ენის გენერირებაში, ხშირად აკლიათ ზუსტი ხელსაწყოების გამოძახებისთვის საჭირო ნიუანსური გაგება. მათ შეიძლება ივარაუდონ არარსებული ხელსაწყო, არასწორად განმარტონ მომხმარებლის განზრახვა, რაც არასწორ პარამეტრულ მნიშვნელობებს გამოიწვევს, ან ვერ ამოიცნონ, როდესაც კრიტიკული ინფორმაცია აკლია. ეს შეცდომები იწვევს მომხმარებლის იმედგაცრუებას და საწარმოს დონის განლაგებას სარისკოს ხდის. ორგანიზაციებისთვის, რომლებიც ეფექტურად ცდილობენ AI აგენტების ექსპლუატაციაში მიღებას, ხელსაწყოების პროგნოზირებადი და სანდო შესრულების უზრუნველყოფა უმთავრესია. ფსონები მაღალია, რადგან საიმედო აგენტებს შეუძლიათ ავტომატიზაციისა და ეფექტურობის უპრეცედენტო დონის განბლოკვა, ხოლო არასაიმედოებმა შეიძლება გამოიწვიოს ძვირადღირებული შეცდომები და მომხმარებლის უკმაყოფილება. სწორედ ამიტომ არის კრიტიკული მოდელის ოპტიმიზაცია აგენტური სამუშაო პროცესებისთვის, ამოცანა, რომელიც გამარტივებულია SageMaker AI-ის მსგავსი პლატფორმებით.
სერვერული მოდელის მორგება: SageMaker AI-ის უპირატესობა
LLM-ის მუშაობის გაუმჯობესების ტრადიციული მიდგომა ხშირად გულისხმობს ინფრასტრუქტურის მნიშვნელოვან მართვას – GPU-ის შესყიდვიდან და მეხსიერების ორკესტრირებიდან დაწყებული, რთულ ჯილდოების ინფრასტრუქტურამდე და გამაძლიერებელი სწავლებისთვის საკონტროლო წერტილების შექმნამდე. ეს ამოცანები იწვევს მნიშვნელოვან ოპერაციულ დანახარჯებს, რაც დეველოპერის ღირებულ რესურსებს ძირითადი პრობლემისგან აშორებს: მოდელის ქცევის დახვეწა.
Amazon SageMaker AI-ის სერვერული მოდელის მორგება ამ ტვირთს აცილებს. დეველოპერებს შეუძლიათ აირჩიონ საბაზისო მოდელი (მაგ., Qwen, Llama, GPT-OSS), დააკონფიგურირონ დახვეწის ტექნიკა, როგორიცაა RLVR, მიუთითონ თავიანთ მონაცემებზე და განსაზღვრონ ჯილდოს ფუნქცია. SageMaker AI შემდეგ მართავს მთელ უკანა პროცესს, გამოთვლითი რესურსების მასშტაბირებიდან დაწყებული, სწავლის ფაზებისა და ჰიპერპარამეტრების დარეგულირების მართვამდე. ეს აბსტრაქცია გუნდებს საშუალებას აძლევს კონცენტრირდნენ მონაცემთა ნაკრების ხარისხზე და ჯილდოს ფუნქციის დიზაინზე, რომლებიც მოდელის გაუმჯობესების რეალური მამოძრავებლები არიან. საწარმოებისთვის, ეს სერვერული მიდგომა ნიშნავს სწრაფ იტერაციულ ციკლებს, შემცირებულ ხარჯებს და მოწინავე LLM-ის მორგებისთვის შესვლის დაბალ ბარიერს. ეს არის თამაშის წამყვანი იმისთვის, ვინც ცდილობს AI-ის მასშტაბირებას ყველასთვის, რთული LLM-ების დახვეწის პროცესების გამარტივებით.
რატომ არის RLVR საუკეთესო აგენტური ხელსაწყოების გამოძახებისთვის
როდესაც საქმე ეხება AI აგენტისთვის ხელსაწყოების საიმედოდ გამოყენების სწავლებას, ყველა დახვეწის ტექნიკა არ არის თანაბარი. კონტროლირებადი დახვეწა (SFT) მოითხოვს ზედმიწევნით ეტიკეტირებულ მაგალითებს ყველა შესაძლო ქცევისთვის, რომელიც მოდელმა უნდა გამოავლინოს – ხელსაწყოს გამოძახება, დაზუსტების მოთხოვნა ან მოთხოვნის უარყოფა. SFT-ის გამოწვევა მდგომარეობს იმაში, რომ უჭირს გადაწყვეტილების მიღების პროცესის განზოგადება ამ განსხვავებულ ქცევებს შორის, ხშირად კარგად მუშაობს სწავლის დროს ნანახ შაბლონებზე, მაგრამ უჭირს ახალ სცენარებზე.
გაძლიერებითი სწავლება გადამოწმებადი ჯილდოებით (RLVR) გვთავაზობს უფრო დინამიურ და ეფექტურ გადაწყვეტას. SFT-სგან განსხვავებით, RLVR მუშაობს უკუკავშირის მარყუჟზე:
- კანდიდატების გენერაცია: ყოველი პრომპტისთვის, მოდელი ქმნის რამდენიმე (მაგ., რვა) პოტენციურ პასუხს.
- ჯილდოს ფუნქციის შეფასება: წინასწარ განსაზღვრული
ჯილდოს ფუნქციაობიექტურად აფასებს თითოეულ კანდიდატს, მიუთითებს მის ხარისხზე, სისწორესა და სასურველ ქცევასთან შესაბამისობაზე (მაგ., გამოიძახა თუ არა მან სწორი ხელსაწყო სწორი პარამეტრებით?). - პოლიტიკის განახლება: Group Relative Policy Optimization (GRPO) გამოყენებით, მოდელის პოლიტიკა განახლდება, რათა გააძლიეროს ის პასუხები, რომლებმაც გენერირებული ჯგუფის საშუალოზე მაღალი ქულა მიიღეს. ეს პროცესი თანდათანობით მიმართავს მოდელს უფრო ოპტიმალური ქცევისკენ.
ეს იტერაციული სწავლა მოდელს საშუალებას აძლევს გაიგოს არა მხოლოდ როგორ შეასრულოს კონკრეტული მოქმედება, არამედ როდის შეასრულოს იგი. ის სწავლობს ნიუანსებს სიტუაციების გარჩევაში, სადაც ხელსაწყოს გამოძახება მიზანშეწონილია, საჭიროა დაზუსტება, ან უარყოფა საუკეთესო ქმედებაა. რადგან ხელსაწყოების გამოძახებას აქვს ბუნებრივად გადამოწმებადი მიზანი – გამოიძახა თუ არა მოდელმა სწორი ფუნქცია სწორი პარამეტრებით – ის გამონაკლისად კარგად ერგება RLVR პარადიგმას, რაც მას იდეალურს ხდის AI აგენტებისთვის, რომლებიც საჭიროებენ მაღალ საიმედოობას. ეს მეთოდი ეფექტურად უმკლავდება აგენტების დაპროექტებას პრომპტის ინექციისადმი წინააღმდეგობის გასაწევად გამოწვევას ზუსტი მოქმედების შაბლონების გაძლიერებით.
მაღალი ხარისხის სასწავლო მონაცემების მომზადება RLVR-ისთვის
ნებისმიერი დახვეწის მცდელობის წარმატება, განსაკუთრებით RLVR-ით, დამოკიდებულია სასწავლო მონაცემების ხარისხსა და სრულყოფილებაზე. აგენტური ხელსაწყოების გამოძახებისთვის, მონაცემთა ნაკრებმა უნდა ასწავლოს მოდელს არა მხოლოდ API-ის სწორი გამოძახებები; მან უნდა მოიცვას აგენტისთვის საჭირო ქცევების სრული სპექტრი.
ჩვენი მიდგომა გულისხმობდა 1,500 ხელოვნური სასწავლო მაგალითის გენერირებას Kiro-ს, Amazon-ის AI-ზე მომუშავე IDE-ის გამოყენებით. ეს მაგალითები მოიცავდა ხუთ განსხვავებულ ხელსაწყოების სქემას: get_weather_forecast, search_flights, translate_text, currency_convert და get_statistics. რაც გადამწყვეტია, მონაცემები განაწილებული იყო სამ ძირითად აგენტურ ქცევაზე დაბალანსებული სწავლის უზრუნველსაყოფად:
| ქცევა | აღწერა | პროცენტული წილი | საწყისი ჭეშმარიტების მაგალითი |
|---|---|---|---|
| შესრულება | მომხმარებელი უზრუნველყოფს ყველა საჭირო პარამეტრს, მოდელმა უნდა გამოიძახოს ხელსაწყო. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| დაზუსტება | მომხმარებლის მოთხოვნას აკლია საჭირო პარამეტრები, მოდელმა უნდა მოითხოვოს დაზუსტება. | 25% | ამინდის შესახებ ინფორმაციის მოწოდებისთვის, შეგიძლიათ მიუთითოთ მდებარეობა? |
| უარყოფა | მოთხოვნა საზიანოა ან არ შედის ფარგლებში, მოდელმა თავაზიანად უნდა უარყოს იგი. | 15% | უკაცრავად, ამ მოთხოვნის შესრულება არ შემიძლია. |
თითოეული სასწავლო მაგალითი მიჰყვებოდა JSONL ფორმატს, რომელიც მოიცავდა პრომპტს (სისტემურ ინსტრუქციას და მომხმარებლის მოთხოვნას) და ground_truth-ს reward_model ველში, რომლის მიხედვითაც ჯილდოს ფუნქცია აფასებს. ოფიციალურ, ჩვეულებრივ და მოკლე ფრაზებს შორის ვარიაციამ კიდევ უფრო გააუმჯობესა მონაცემთა ნაკრების სიმტკიცე. მიუხედავად იმისა, რომ ხელოვნური მონაცემები უზრუნველყოფს პრაქტიკულ საწყის წერტილს, ორგანიზაციებს არსებული აგენტური სამუშაო პროცესებით შეუძლიათ გამოიყენონ რეალური მომხმარებლის პრომპტები და ხელსაწყოების გამოძახებები საწარმოო ჟურნალებიდან, რათა მიაღწიონ კიდევ უფრო მაღალი ხარისხის სწავლებას. მონაცემთა მომზადების ეს ეტაპი კრიტიკულია რთული აგენტური ქცევებისთვის პრომპტის ინჟინერიაში.
{
"prompt": [
{"role": "system", "content": "თქვენ ხართ დამხმარე ასისტენტი. ხელსაწყოების გამოყენებისას უპასუხეთ: [...]"},
{"role": "user", "content": "მიიღეთ ამინდი სან-ფრანცისკოსთვის"}
],
"reward_model": {
"ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "თქვენ ხართ დამხმარე ასისტენტი. ხელსაწყოების გამოყენებისას უპასუხეთ: [...]"},
{"role": "user", "content": "მიიღეთ ამინდი"}
],
"reward_model": {
"ground_truth": "ამინდის შესახებ ინფორმაციის მოწოდებისთვის, შეგიძლიათ მიუთითოთ მდებარეობა?"
}
}
Qwen 2.5 7B Instruct-ის დახვეწა SageMaker AI-ით
Amazon SageMaker AI Studio-ში Qwen 2.5 7B Instruct-ის მსგავსი მოდელის დახვეწის პროცესი გამარტივებული და ინტუიციურია. მას შემდეგ, რაც დაკმაყოფილდება საჭირო წინაპირობები (AWS ანგარიში, IAM როლი, SageMaker AI დომენი, S3 ბაკეტი), მომხმარებლებს შეუძლიათ გადავიდნენ SageMaker AI Studio-ს Models (მოდელები) განყოფილებაში.
იქიდან, Qwen 2.5 7B Instruct-ის არჩევა და Customize with UI (მომხმარებლის ინტერფეისით მორგება) არჩევა ხსნის კონფიგურაციის გამოყოფილ გვერდს. ეს ინტერფეისი საშუალებას იძლევა:
- ტექნიკის არჩევა: ცალსახად აირჩიოთ
გაძლიერებითი სწავლება გადამოწმებადი ჯილდოებით (RLVR)ჩამოსაშლელი სიიდან. - მონაცემთა შეყვანა: მიუთითოთ მომზადებულ სასწავლო მონაცემებზე, რომლებიც ინახება Amazon S3 ბაკეტში.
- ჯილდოს ფუნქცია: დააკონფიგურიროთ მრავალსაფეხურიანი შეფასების მექანიზმი, რომელიც განსაზღვრავს, თუ როგორ ფასდება კანდიდატი პასუხები
ground_truth-ის მიხედვით. - ჰიპერპარამეტრების კონფიგურაცია: დაარეგულიროთ პარამეტრები, როგორიცაა პარტიული ზომა, თუმცა SageMaker AI ხშირად ავტომატურად ამუშავებს ოპტიმალურ პარამეტრებს.
SageMaker AI მხარს უჭერს მოდელების მრავალფეროვან ოჯახებს, მათ შორის Amazon Nova, GPT-OSS, Llama, Qwen და DeepSeek, სხვადასხვა ტექნიკასთან ერთად, როგორიცაა კონტროლირებადი დახვეწა (SFT), პირდაპირი უპირატესობის ოპტიმიზაცია (DPO), RLVR და გაძლიერებითი სწავლება AI უკუკავშირიდან (RLAIF). ინტეგრირებული MLflow თვალთვალი უზრუნველყოფს სწავლისა და ვალიდაციის მეტრულების ხილვადობას, ამარტივებს მუშაობის მონიტორინგს და იტერაციას. გამოყენების ეს სიმარტივე მნიშვნელოვნად აჩქარებს განვითარების სასიცოცხლო ციკლს დეველოპერებისთვის, რომლებიც ქმნიან დახვეწილ GitHub-ის აგენტურ სამუშაო პროცესებს.
შეფასება და განლაგების წარმატება
ჩვენი დახვეწილი Qwen 2.5 7B Instruct მოდელის ეფექტურობა მკაცრად შეფასდა გამოყოფილ მონაცემებზე, მათ შორის სცენარებზე სრულიად უცნობი ხელსაწყოებით – განზოგადების კრიტიკული ტესტი. შედეგები დამაჯერებელი იყო: დახვეწილმა მოდელმა მიაღწია შესანიშნავ 57%-იან გაუმჯობესებას ხელსაწყოების გამოძახების ჯილდოში საბაზისო მოდელთან შედარებით. მუშაობის ეს მნიშვნელოვანი ნახტომი სცენარებზე, რომლებიც მას სწავლის დროს არ შეხვედრია, ხაზს უსვამს RLVR-ის ძალას მოდელებისთვის ხელსაწყოების ურთიერთქმედებისთვის ძლიერი გადაწყვეტილების მიღების უნარების სწავლებაში.
ეს გაუმჯობესებული საიმედოობა პირდაპირ ითარგმნება AI აგენტების საწარმოო გარემოში განლაგებისადმი უფრო მაღალ ნდობასა და თავდაჯერებულობაში. ხელსაწყოების ჰალუცინაციების, არასწორი პარამეტრების და არასათანადო ქმედებების შემთხვევების მინიმიზაციით, ბიზნესებს შეუძლიათ AI აგენტების გამოყენება უფრო კრიტიკული და მგრძნობიარე ამოცანებისთვის. როდესაც SageMaker AI მართავს მოდელის განლაგებისა და ინფრასტრუქტურის მართვის სირთულეებს, დეველოპერებს შეუძლიათ შეუფერხებლად გადავიდნენ დახვეწიდან საწარმოო გარემოში, სრულად რეალიზებით მათი აგენტური AI გადაწყვეტილებების პოტენციალს. ეს შესაძლებლობა შეესაბამება აგენტური AI-ის ოპერაციული ექსპლუატაციაში მიღების უფრო ფართო ხედვას რეალური ზემოქმედებისთვის.
შეჯამებისთვის, Amazon SageMaker AI-ის სერვერული მოდელის მორგების და RLVR-ის ძლიერი სწავლის შესაძლებლობების კომბინაცია წარმოადგენს მძლავრ გზას მაღალი საიმედოობის აგენტური ხელსაწყოების გამოძახების სისტემების შესაქმნელად. ეს ინოვაციური მიდგომა აჩქარებს განვითარებას, ამცირებს ოპერაციულ ტვირთს და საბოლოოდ უზრუნველყოფს AI აგენტებს, რომლებიც მუშაობენ უპრეცედენტო სიზუსტით და სანდოობით.
ხშირად დასმული კითხვები
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
იყავით ინფორმირებული
მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.
