SageMaker AI: აგენტური ხელსაწყოების გამოძახების დაჩქარება სერვერული მოდელის მორგებით

აგენტურმა AI-მ მოახდინა რევოლუცია იმაში, თუ როგორ ვფიქრობთ ავტომატიზებულ ამოცანებზე, რაც სისტემებს საშუალებას აძლევს მიიღონ გადაწყვეტილებები და იურთიერთონ სამყაროსთან სპეციალიზებული ხელსაწყოების მეშვეობით. თუმცა, AI აგენტების ნამდვილი სარგებლიანობა საწარმოო გარემოში დამოკიდებულია მათ უნარზე, საიმედოდ შეასრულონ აგენტური ხელსაწყოების გამოძახება. ასე ახორციელებენ აგენტები მონაცემთა ბაზების გამოკითხვას, რთული სამუშაო პროცესების ინიცირებას, რეალურ დროში მონაცემების მოძიებას და მომხმარებლის სახელით გადამწყვეტ მოქმედებას. სამწუხაროდ, ფართო დანერგვისთვის ხშირი დაბრკოლება იყო საბაზისო დიდი ენობრივი მოდელების (LLM) მიდრეკილება, რომ ჰალუცინაციები ჰქონოდათ არარსებული ხელსაწყოების შესახებ, გადაეცათ არასწორი პარამეტრები, ან ეცადათ მოქმედებები, როდესაც საჭირო იყო დაზუსტება. ასეთი წარუმატებლობები ძირს უთხრის ნდობას და მნიშვნელოვნად აფერხებს საწარმოო განლაგებას.

Amazon SageMaker AI ნაბიჯებს დგამს ამ კრიტიკული გამოწვევების გადასაჭრელად. სერვერული მოდელის მორგების შეთავაზებით, დეველოპერებს შეუძლიათ LLM-ების დახვეწა ძლიერი აგენტური ხელსაწყოების გამოძახებისთვის, ტიპიური ოპერაციული დანახარჯების გარეშე. ამ ინოვაციის ცენტრშია გაძლიერებითი სწავლება გადამოწმებადი ჯილდოებით (RLVR), ტექნიკა, რომელიც მოდელებს საშუალებას აძლევს შექმნან და გადაამოწმონ საკუთარი პასუხები, სწავლობენ წარმატებული ხელსაწყოების ურთიერთქმედების უპირატესობას. ეს პოსტი განიხილავს, თუ როგორ აუმჯობესებს SageMaker AI, RLVR-ის გამოყენებით, აგენტების საიმედოობას, აჩვენებს 57%-იან გაუმჯობესებას ხელსაწყოების გამოძახების ჯილდოში უცნობ სცენარებზე, დახვეწილი Qwen 2.5 7B Instruct მოდელით.

აგენტური ხელსაწყოების გამოძახების დაპირებები და საფრთხეები

AI აგენტების გარე სისტემებთან ხელსაწყოების საშუალებით ურთიერთქმედების კონცეფცია მოწინავე AI აპლიკაციების ქვაკუთხედია. წარმოიდგინეთ აგენტი, რომელსაც შეუძლია ფრენების დაჯავშნა, დოკუმენტების შეჯამება მონაცემთა ბაზიდან, ან თუნდაც კოდის შესრულება ბუნებრივი ენის პრომპტის საფუძველზე. სწორედ ამ შესაძლებლობას იძლევა აგენტური ხელსაწყოების გამოძახება. თუმცა, ხელსაწყოების საიმედო გამოყენების გზა სავსეა გამოწვევებით.

საბაზისო LLM-ებს, მიუხედავად იმისა, რომ ისინი ძლიერია ენის გენერირებაში, ხშირად აკლიათ ზუსტი ხელსაწყოების გამოძახებისთვის საჭირო ნიუანსური გაგება. მათ შეიძლება ივარაუდონ არარსებული ხელსაწყო, არასწორად განმარტონ მომხმარებლის განზრახვა, რაც არასწორ პარამეტრულ მნიშვნელობებს გამოიწვევს, ან ვერ ამოიცნონ, როდესაც კრიტიკული ინფორმაცია აკლია. ეს შეცდომები იწვევს მომხმარებლის იმედგაცრუებას და საწარმოს დონის განლაგებას სარისკოს ხდის. ორგანიზაციებისთვის, რომლებიც ეფექტურად ცდილობენ AI აგენტების ექსპლუატაციაში მიღებას, ხელსაწყოების პროგნოზირებადი და სანდო შესრულების უზრუნველყოფა უმთავრესია. ფსონები მაღალია, რადგან საიმედო აგენტებს შეუძლიათ ავტომატიზაციისა და ეფექტურობის უპრეცედენტო დონის განბლოკვა, ხოლო არასაიმედოებმა შეიძლება გამოიწვიოს ძვირადღირებული შეცდომები და მომხმარებლის უკმაყოფილება. სწორედ ამიტომ არის კრიტიკული მოდელის ოპტიმიზაცია აგენტური სამუშაო პროცესებისთვის, ამოცანა, რომელიც გამარტივებულია SageMaker AI-ის მსგავსი პლატფორმებით.

სერვერული მოდელის მორგება: SageMaker AI-ის უპირატესობა

LLM-ის მუშაობის გაუმჯობესების ტრადიციული მიდგომა ხშირად გულისხმობს ინფრასტრუქტურის მნიშვნელოვან მართვას – GPU-ის შესყიდვიდან და მეხსიერების ორკესტრირებიდან დაწყებული, რთულ ჯილდოების ინფრასტრუქტურამდე და გამაძლიერებელი სწავლებისთვის საკონტროლო წერტილების შექმნამდე. ეს ამოცანები იწვევს მნიშვნელოვან ოპერაციულ დანახარჯებს, რაც დეველოპერის ღირებულ რესურსებს ძირითადი პრობლემისგან აშორებს: მოდელის ქცევის დახვეწა.

Amazon SageMaker AI-ის სერვერული მოდელის მორგება ამ ტვირთს აცილებს. დეველოპერებს შეუძლიათ აირჩიონ საბაზისო მოდელი (მაგ., Qwen, Llama, GPT-OSS), დააკონფიგურირონ დახვეწის ტექნიკა, როგორიცაა RLVR, მიუთითონ თავიანთ მონაცემებზე და განსაზღვრონ ჯილდოს ფუნქცია. SageMaker AI შემდეგ მართავს მთელ უკანა პროცესს, გამოთვლითი რესურსების მასშტაბირებიდან დაწყებული, სწავლის ფაზებისა და ჰიპერპარამეტრების დარეგულირების მართვამდე. ეს აბსტრაქცია გუნდებს საშუალებას აძლევს კონცენტრირდნენ მონაცემთა ნაკრების ხარისხზე და ჯილდოს ფუნქციის დიზაინზე, რომლებიც მოდელის გაუმჯობესების რეალური მამოძრავებლები არიან. საწარმოებისთვის, ეს სერვერული მიდგომა ნიშნავს სწრაფ იტერაციულ ციკლებს, შემცირებულ ხარჯებს და მოწინავე LLM-ის მორგებისთვის შესვლის დაბალ ბარიერს. ეს არის თამაშის წამყვანი იმისთვის, ვინც ცდილობს AI-ის მასშტაბირებას ყველასთვის, რთული LLM-ების დახვეწის პროცესების გამარტივებით.

რატომ არის RLVR საუკეთესო აგენტური ხელსაწყოების გამოძახებისთვის

როდესაც საქმე ეხება AI აგენტისთვის ხელსაწყოების საიმედოდ გამოყენების სწავლებას, ყველა დახვეწის ტექნიკა არ არის თანაბარი. კონტროლირებადი დახვეწა (SFT) მოითხოვს ზედმიწევნით ეტიკეტირებულ მაგალითებს ყველა შესაძლო ქცევისთვის, რომელიც მოდელმა უნდა გამოავლინოს – ხელსაწყოს გამოძახება, დაზუსტების მოთხოვნა ან მოთხოვნის უარყოფა. SFT-ის გამოწვევა მდგომარეობს იმაში, რომ უჭირს გადაწყვეტილების მიღების პროცესის განზოგადება ამ განსხვავებულ ქცევებს შორის, ხშირად კარგად მუშაობს სწავლის დროს ნანახ შაბლონებზე, მაგრამ უჭირს ახალ სცენარებზე.

გაძლიერებითი სწავლება გადამოწმებადი ჯილდოებით (RLVR) გვთავაზობს უფრო დინამიურ და ეფექტურ გადაწყვეტას. SFT-სგან განსხვავებით, RLVR მუშაობს უკუკავშირის მარყუჟზე:

კანდიდატების გენერაცია: ყოველი პრომპტისთვის, მოდელი ქმნის რამდენიმე (მაგ., რვა) პოტენციურ პასუხს.
ჯილდოს ფუნქციის შეფასება: წინასწარ განსაზღვრული ჯილდოს ფუნქცია ობიექტურად აფასებს თითოეულ კანდიდატს, მიუთითებს მის ხარისხზე, სისწორესა და სასურველ ქცევასთან შესაბამისობაზე (მაგ., გამოიძახა თუ არა მან სწორი ხელსაწყო სწორი პარამეტრებით?).
პოლიტიკის განახლება: Group Relative Policy Optimization (GRPO) გამოყენებით, მოდელის პოლიტიკა განახლდება, რათა გააძლიეროს ის პასუხები, რომლებმაც გენერირებული ჯგუფის საშუალოზე მაღალი ქულა მიიღეს. ეს პროცესი თანდათანობით მიმართავს მოდელს უფრო ოპტიმალური ქცევისკენ.

ეს იტერაციული სწავლა მოდელს საშუალებას აძლევს გაიგოს არა მხოლოდ როგორ შეასრულოს კონკრეტული მოქმედება, არამედ როდის შეასრულოს იგი. ის სწავლობს ნიუანსებს სიტუაციების გარჩევაში, სადაც ხელსაწყოს გამოძახება მიზანშეწონილია, საჭიროა დაზუსტება, ან უარყოფა საუკეთესო ქმედებაა. რადგან ხელსაწყოების გამოძახებას აქვს ბუნებრივად გადამოწმებადი მიზანი – გამოიძახა თუ არა მოდელმა სწორი ფუნქცია სწორი პარამეტრებით – ის გამონაკლისად კარგად ერგება RLVR პარადიგმას, რაც მას იდეალურს ხდის AI აგენტებისთვის, რომლებიც საჭიროებენ მაღალ საიმედოობას. ეს მეთოდი ეფექტურად უმკლავდება აგენტების დაპროექტებას პრომპტის ინექციისადმი წინააღმდეგობის გასაწევად გამოწვევას ზუსტი მოქმედების შაბლონების გაძლიერებით.

მაღალი ხარისხის სასწავლო მონაცემების მომზადება RLVR-ისთვის

ნებისმიერი დახვეწის მცდელობის წარმატება, განსაკუთრებით RLVR-ით, დამოკიდებულია სასწავლო მონაცემების ხარისხსა და სრულყოფილებაზე. აგენტური ხელსაწყოების გამოძახებისთვის, მონაცემთა ნაკრებმა უნდა ასწავლოს მოდელს არა მხოლოდ API-ის სწორი გამოძახებები; მან უნდა მოიცვას აგენტისთვის საჭირო ქცევების სრული სპექტრი.

ჩვენი მიდგომა გულისხმობდა 1,500 ხელოვნური სასწავლო მაგალითის გენერირებას Kiro-ს, Amazon-ის AI-ზე მომუშავე IDE-ის გამოყენებით. ეს მაგალითები მოიცავდა ხუთ განსხვავებულ ხელსაწყოების სქემას: get_weather_forecast, search_flights, translate_text, currency_convert და get_statistics. რაც გადამწყვეტია, მონაცემები განაწილებული იყო სამ ძირითად აგენტურ ქცევაზე დაბალანსებული სწავლის უზრუნველსაყოფად:

ქცევა	აღწერა	პროცენტული წილი	საწყისი ჭეშმარიტების მაგალითი
შესრულება	მომხმარებელი უზრუნველყოფს ყველა საჭირო პარამეტრს, მოდელმა უნდა გამოიძახოს ხელსაწყო.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
დაზუსტება	მომხმარებლის მოთხოვნას აკლია საჭირო პარამეტრები, მოდელმა უნდა მოითხოვოს დაზუსტება.	25%	`ამინდის შესახებ ინფორმაციის მოწოდებისთვის, შეგიძლიათ მიუთითოთ მდებარეობა?`
უარყოფა	მოთხოვნა საზიანოა ან არ შედის ფარგლებში, მოდელმა თავაზიანად უნდა უარყოს იგი.	15%	`უკაცრავად, ამ მოთხოვნის შესრულება არ შემიძლია.`

თითოეული სასწავლო მაგალითი მიჰყვებოდა JSONL ფორმატს, რომელიც მოიცავდა პრომპტს (სისტემურ ინსტრუქციას და მომხმარებლის მოთხოვნას) და ground_truth-ს reward_model ველში, რომლის მიხედვითაც ჯილდოს ფუნქცია აფასებს. ოფიციალურ, ჩვეულებრივ და მოკლე ფრაზებს შორის ვარიაციამ კიდევ უფრო გააუმჯობესა მონაცემთა ნაკრების სიმტკიცე. მიუხედავად იმისა, რომ ხელოვნური მონაცემები უზრუნველყოფს პრაქტიკულ საწყის წერტილს, ორგანიზაციებს არსებული აგენტური სამუშაო პროცესებით შეუძლიათ გამოიყენონ რეალური მომხმარებლის პრომპტები და ხელსაწყოების გამოძახებები საწარმოო ჟურნალებიდან, რათა მიაღწიონ კიდევ უფრო მაღალი ხარისხის სწავლებას. მონაცემთა მომზადების ეს ეტაპი კრიტიკულია რთული აგენტური ქცევებისთვის პრომპტის ინჟინერიაში.

{
  "prompt": [
    {"role": "system", "content": "თქვენ ხართ დამხმარე ასისტენტი. ხელსაწყოების გამოყენებისას უპასუხეთ: [...]"},
    {"role": "user", "content": "მიიღეთ ამინდი სან-ფრანცისკოსთვის"}
  ],
  "reward_model": {
    "ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "თქვენ ხართ დამხმარე ასისტენტი. ხელსაწყოების გამოყენებისას უპასუხეთ: [...]"},
    {"role": "user", "content": "მიიღეთ ამინდი"}
  ],
  "reward_model": {
    "ground_truth": "ამინდის შესახებ ინფორმაციის მოწოდებისთვის, შეგიძლიათ მიუთითოთ მდებარეობა?"
  }
}

Qwen 2.5 7B Instruct-ის დახვეწა SageMaker AI-ით

Amazon SageMaker AI Studio-ში Qwen 2.5 7B Instruct-ის მსგავსი მოდელის დახვეწის პროცესი გამარტივებული და ინტუიციურია. მას შემდეგ, რაც დაკმაყოფილდება საჭირო წინაპირობები (AWS ანგარიში, IAM როლი, SageMaker AI დომენი, S3 ბაკეტი), მომხმარებლებს შეუძლიათ გადავიდნენ SageMaker AI Studio-ს Models (მოდელები) განყოფილებაში.

იქიდან, Qwen 2.5 7B Instruct-ის არჩევა და Customize with UI (მომხმარებლის ინტერფეისით მორგება) არჩევა ხსნის კონფიგურაციის გამოყოფილ გვერდს. ეს ინტერფეისი საშუალებას იძლევა:

ტექნიკის არჩევა: ცალსახად აირჩიოთ გაძლიერებითი სწავლება გადამოწმებადი ჯილდოებით (RLVR) ჩამოსაშლელი სიიდან.
მონაცემთა შეყვანა: მიუთითოთ მომზადებულ სასწავლო მონაცემებზე, რომლებიც ინახება Amazon S3 ბაკეტში.
ჯილდოს ფუნქცია: დააკონფიგურიროთ მრავალსაფეხურიანი შეფასების მექანიზმი, რომელიც განსაზღვრავს, თუ როგორ ფასდება კანდიდატი პასუხები ground_truth-ის მიხედვით.
ჰიპერპარამეტრების კონფიგურაცია: დაარეგულიროთ პარამეტრები, როგორიცაა პარტიული ზომა, თუმცა SageMaker AI ხშირად ავტომატურად ამუშავებს ოპტიმალურ პარამეტრებს.

SageMaker AI მხარს უჭერს მოდელების მრავალფეროვან ოჯახებს, მათ შორის Amazon Nova, GPT-OSS, Llama, Qwen და DeepSeek, სხვადასხვა ტექნიკასთან ერთად, როგორიცაა კონტროლირებადი დახვეწა (SFT), პირდაპირი უპირატესობის ოპტიმიზაცია (DPO), RLVR და გაძლიერებითი სწავლება AI უკუკავშირიდან (RLAIF). ინტეგრირებული MLflow თვალთვალი უზრუნველყოფს სწავლისა და ვალიდაციის მეტრულების ხილვადობას, ამარტივებს მუშაობის მონიტორინგს და იტერაციას. გამოყენების ეს სიმარტივე მნიშვნელოვნად აჩქარებს განვითარების სასიცოცხლო ციკლს დეველოპერებისთვის, რომლებიც ქმნიან დახვეწილ GitHub-ის აგენტურ სამუშაო პროცესებს.

შეფასება და განლაგების წარმატება

ჩვენი დახვეწილი Qwen 2.5 7B Instruct მოდელის ეფექტურობა მკაცრად შეფასდა გამოყოფილ მონაცემებზე, მათ შორის სცენარებზე სრულიად უცნობი ხელსაწყოებით – განზოგადების კრიტიკული ტესტი. შედეგები დამაჯერებელი იყო: დახვეწილმა მოდელმა მიაღწია შესანიშნავ 57%-იან გაუმჯობესებას ხელსაწყოების გამოძახების ჯილდოში საბაზისო მოდელთან შედარებით. მუშაობის ეს მნიშვნელოვანი ნახტომი სცენარებზე, რომლებიც მას სწავლის დროს არ შეხვედრია, ხაზს უსვამს RLVR-ის ძალას მოდელებისთვის ხელსაწყოების ურთიერთქმედებისთვის ძლიერი გადაწყვეტილების მიღების უნარების სწავლებაში.

ეს გაუმჯობესებული საიმედოობა პირდაპირ ითარგმნება AI აგენტების საწარმოო გარემოში განლაგებისადმი უფრო მაღალ ნდობასა და თავდაჯერებულობაში. ხელსაწყოების ჰალუცინაციების, არასწორი პარამეტრების და არასათანადო ქმედებების შემთხვევების მინიმიზაციით, ბიზნესებს შეუძლიათ AI აგენტების გამოყენება უფრო კრიტიკული და მგრძნობიარე ამოცანებისთვის. როდესაც SageMaker AI მართავს მოდელის განლაგებისა და ინფრასტრუქტურის მართვის სირთულეებს, დეველოპერებს შეუძლიათ შეუფერხებლად გადავიდნენ დახვეწიდან საწარმოო გარემოში, სრულად რეალიზებით მათი აგენტური AI გადაწყვეტილებების პოტენციალს. ეს შესაძლებლობა შეესაბამება აგენტური AI-ის ოპერაციული ექსპლუატაციაში მიღების უფრო ფართო ხედვას რეალური ზემოქმედებისთვის.

შეჯამებისთვის, Amazon SageMaker AI-ის სერვერული მოდელის მორგების და RLVR-ის ძლიერი სწავლის შესაძლებლობების კომბინაცია წარმოადგენს მძლავრ გზას მაღალი საიმედოობის აგენტური ხელსაწყოების გამოძახების სისტემების შესაქმნელად. ეს ინოვაციური მიდგომა აჩქარებს განვითარებას, ამცირებს ოპერაციულ ტვირთს და საბოლოოდ უზრუნველყოფს AI აგენტებს, რომლებიც მუშაობენ უპრეცედენტო სიზუსტით და სანდოობით.

ორიგინალი წყარო

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

ხშირად დასმული კითხვები

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

იყავით ინფორმირებული

მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.

გაზიარება