SageMaker AI: Serverless Fərdiləşdirmə ilə Agentik Alət Zənglərini Sürətləndirmək
Agentik AI, avtomatlaşdırılmış tapşırıqlar haqqında düşüncələrimizi inqilab etdi, sistemlərə qərar qəbul etməyə və xüsusi alətlər vasitəsilə dünya ilə əlaqə qurmağa imkan verdi. Lakin, AI agentlərinin istehsalda əsl faydası, onların etibarlı şəkildə agentik alət zəngini həyata keçirmək bacarığından asılıdır. Bu, agentlərin məlumat bazalarını necə sorğuladıqları, mürəkkəb iş axınlarını necə işə saldıqları, real-time məlumatları necə əldə etdikləri və istifadəçi adından qətiyyətlə necə hərəkət etdikləridir. Təəssüf ki, geniş tətbiqin qarşısındakı ümumi bir maneə, əsas böyük dil modellərinin (LLM) mövcud olmayan alətləri xəyali olaraq yaratmağa, səhv parametrlər ötürməyə və ya aydınlaşdırma lazım olduqda hərəkət etməyə cəhd etməyə meyilli olmasıdır. Bu cür uğursuzluqlar etimadı azaldır və istehsalda yerləşdirməni əhəmiyyətli dərəcədə çətinləşdirir.
Amazon SageMaker AI bu kritik çətinlikləri həll etmək üçün irəli addım atır. Serverless model fərdiləşdirməsi təklif edərək, inkişaf etdiricilər tipik əməliyyat yükü olmadan möhkəm agentik alət zəngi üçün LLM-ləri dəqiq tənzimləyə bilərlər. Bu yeniliyin mərkəzində, modellərə öz cavablarını yaratmağa və doğrulamağa imkan verən, uğurlu alət qarşılıqlı əlaqələrini üstün tutmağı öyrədən Doğrulana Bilən Mükafatlarla Gücləndirici Öyrənmə (RLVR) durur. Bu yazı SageMaker AI-nin, RLVR-dən istifadə edərək, agent etibarlılığını necə dramatik şəkildə yaxşılaşdırdığını araşdırır, dəqiq tənzimlənmiş Qwen 2.5 7B Instruct modeli ilə görülməmiş ssenarilərdə alət zəngi mükafatında 57% yaxşılaşma nümayiş etdirir.
Agentik Alət Zənginin Vədi və Təhlükələri
AI agentlərinin alətlər vasitəsilə xarici sistemlərlə qarşılıqlı əlaqəsi, qabaqcıl AI tətbiqlərinin əsasını təşkil edir. Təsəvvür edin ki, bir agent uçuşları bron edə, məlumat bazasından sənədləri ümumiləşdirə və ya hətta təbii dil təlimatına əsasən kod icra edə bilir. Bu funksionallıq məhz agentik alət zənginin təmin etdiyi şeydir. Lakin, etibarlı alət istifadəsinə gedən yol çətinliklərlə doludur.
Əsas LLM-lər, dil yaratmada güclü olsalar da, dəqiq alət çağırışı üçün lazım olan incə anlayışdan məhrum ola bilərlər. Onlar mövcud olmayan bir aləti fərz edə, istifadəçi niyyətini səhv şərh edərək yanlış parametr dəyərlərinə səbəb ola və ya kritik məlumatların çatışmadığını tanıya bilməyə bilərlər. Bu səhvlər istifadəçilər üçün sinir bozucu təcrübələrə səbəb olur və müəssisə səviyyəsində yerləşdirməni riskli edir. AI agentlərini effektiv şəkildə işə salmaq istəyən təşkilatlar üçün proqnozlaşdırıla bilən və etibarlı alət icrasını təmin etmək son dərəcə vacibdir. Risk yüksəkdir, çünki etibarlı agentlər görünməmiş avtomatlaşdırma və səmərəlilik səviyyələrini açarkən, etibarsız agentlər bahalı səhvlərə və istifadəçi narazılığına səbəb ola bilər. Buna görə də, SageMaker AI kimi platformalarla daha da sadələşdirilmiş model optimallaşdırılması agentik iş axınları üçün vacibdir.
Serverless Model Fərdiləşdirməsi: SageMaker AI-nın Üstünlüyü
LLM performansını yaxşılaşdırmaq üçün ənənəvi yanaşma tez-tez əhəmiyyətli infrastruktur idarəetməsini əhatə edir – GPU tədarükü və yaddaş orkestrasiyasından tutmuş, gücləndirici öyrənmə üçün mürəkkəb mükafat infrastrukturuna və yoxlama nöqtələrinin idarəedilməsinə qədər. Bu tapşırıqlar əhəmiyyətli əməliyyat yükü yaradır, qiymətli inkişafçı resurslarını əsas problemə – model davranışını təkmilləşdirməyə diqqət yetirməkdən yayındırır.
Amazon SageMaker AI-nın serverless model fərdiləşdirməsi bu yükü aradan qaldırır. İnkişaf etdiricilər bir təməl model (məsələn, Qwen, Llama, GPT-OSS) seçə, RLVR kimi bir dəqiq tənzimləmə texnikasını konfiqurasiya edə, məlumatlarına işarə edə və bir mükafat funksiyası təyin edə bilərlər. SageMaker AI daha sonra bütün arxa cəbhə prosesini, hesablama resurslarının miqyaslanmasından təlim mərhələlərinin və hiperparametr tənzimlənməsinin idarəedilməsinə qədər həyata keçirir. Bu abstraksiya komandalara məlumat dəstinin keyfiyyətinə və modelin yaxşılaşmasının əsl hərəkətverici qüvvələri olan mükafat funksiyasının dizaynına diqqət yetirməyə imkan verir. Müəssisələr üçün bu serverless yanaşma, daha sürətli iterasiya dövrlərinə, azaldılmış xərclərə və qabaqcıl LLM fərdiləşdirməsi üçün daha aşağı giriş baryerinə çevrilir. Bu, mürəkkəb LLM-lərin dəqiq tənzimlənməsi proseslərini sadələşdirərək AI-nı hər kəs üçün miqyaslandırmaq istəyənlər üçün bir oyun dəyişdiricidir.
RLVR Agentik Alət Zəngi üçün Niyə Üstündür?
Bir AI agentinə alətləri etibarlı şəkildə istifadə etməyi öyrətmək mövzusuna gəldikdə, bütün dəqiq tənzimləmə texnikaları bərabər deyil. Nəzarətli Dəqiq Tənzimləmə (SFT), modelin göstərməli olduğu hər bir mümkün davranış üçün – alətə zəng etmək, aydınlaşdırma istəmək və ya sorğudan imtina etmək – diqqətlə etiketlənmiş nümunələr tələb edir. SFT ilə çətinlik, bu fərqli davranışlar arasında qərar qəbul etmə prosesini ümumiləşdirməkdə çətinlik çəkməsidir, tez-tez təlim zamanı görünən nümunələrdə yaxşı performans göstərir, lakin yeni ssenarilərdə büdrəyir.
Doğrulana Bilən Mükafatlarla Gücləndirici Öyrənmə (RLVR) daha dinamik və effektiv bir həll təklif edir. SFT-dən fərqli olaraq, RLVR bir əks əlaqə dövrəsi üzərində işləyir:
- Namizəd Yaratma: Hər təlimat üçün model birdən çox (məsələn, səkkiz) potensial cavab yaradır.
- Mükafat Funksiyasının Qiymətləndirilməsi: Əvvəlcədən təyin edilmiş bir
mükafat funksiyasıhər bir namizədi obyektiv olaraq qiymətləndirir, onun keyfiyyətini, doğruluğunu və arzu olunan davranışa uyğunluğunu (məsələn, doğru aləti düzgün parametrlərlə çağırdımı?) göstərir. - Siyasət Yenilənməsi: Qrup Nisbi Siyasət Optimizasiyası (GRPO) istifadə edərək, modelin
siyasəti, yaradılmış qrupun ortalamasından daha yüksək nəticə göstərən cavabları gücləndirmək üçün yenilənir. Bu proses modelin daha optimal davranışa doğru təkrarlanan şəkildə rəhbərlik edir.
Bu təkrarlanan öyrənmə modelə yalnız müəyyən bir hərəkəti necə yerinə yetirəcəyini deyil, həm də nə vaxt yerinə yetirəcəyini anlamağa imkan verir. O, alət zənginin uyğun olduğu, aydınlaşdırmanın lazım olduğu və ya imtinanın ən yaxşı hərəkət olduğu vəziyyətlər arasında fərq qoymağın incəliklərini öyrənir. Alət zənginin təbii olaraq doğrulana bilən bir məqsədi olduğundan – modelin doğru funksiyanı doğru parametrlərlə çağırıb-çağırmaması – o, RLVR paradiqmasına son dərəcə uyğun gəlir və yüksək etibarlılıq tələb edən AI agentləri üçün ideal olur. Bu metod, dəqiq hərəkət nümunələrini gücləndirərək agentləri təlimat inyeksiyasına qarşı dayanıqlı etmək çağırışını effektiv şəkildə həll edir.
RLVR üçün Yüksək Keyfiyyətli Təlim Məlumatlarının Hazırlanması
Hər hansı bir dəqiq tənzimləmə işinin, xüsusən də RLVR ilə uğuru, təlim məlumatlarının keyfiyyətindən və hərtərəfliliyindən asılıdır. Agentik alət zəngi üçün məlumat dəsti modelə yalnız doğru API çağırışlarını deyil, həm də tələb olunan agent davranışlarının tam spektrini öyrətməlidir.
Bizim yanaşmamız Amazon-un AI tərəfindən idarə olunan IDE-si olan Kiro istifadə edərək 1,500 sintetik təlim nümunəsi yaratmaqdan ibarət idi. Bu nümunələr beş fərqli alət sxemini əhatə edirdi: get_weather_forecast, search_flights, translate_text, currency_convert və get_statistics. Ən əsası, məlumatlar balanslaşdırılmış öyrənməni təmin etmək üçün üç əsas agent davranışı arasında bölüşdürülmüşdü:
| Davranış | Təsvir | Faizi | Ground Truth Nümunəsi |
|---|---|---|---|
| İcra et | İstifadəçi bütün lazımi parametrləri təmin edir, model bir alətə zəng etməlidir. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Aydınlaşdır | İstifadəçinin sorğusunda tələb olunan parametrlər çatışmır, model aydınlaşdırma tələb etməlidir. | 25% | Hava məlumatını təmin etmək üçün, zəhmət olmasa yeri qeyd edərdinizmi? |
| İmtina et | Sorğu zərərli və ya əhatə dairəsindən kənardır, model nəzakətlə imtina etməlidir. | 15% | Bağışlayın, bu sorğunu yerinə yetirə bilmərəm. |
Hər bir təlim nümunəsi, bir təlimat (sistem təlimatı və istifadəçi sorğusu) və reward_model sahəsində mükafat funksiyasının qiymətləndirdiyi bir ground_truth daxil olmaqla JSONL formatında idi. Formal, gündəlik və qısa ifadələr arasında dəyişən cümlələr məlumat dəstinin möhkəmliyini daha da artırdı. Sintetik məlumatlar praktik bir başlanğıc nöqtəsi təmin etsə də, mövcud agentik iş axınları olan təşkilatlar daha yüksək keyfiyyətli təlim əldə etmək üçün istehsal qeydlərindən real istifadəçi təlimatlarından və alət zənglərindən istifadə edə bilərlər. Bu məlumat hazırlığı, mürəkkəb agent davranışları üçün təlimat mühəndisliyində kritik bir addımdır.
{
"prompt": [
{"role": "system", "content": "Siz faydalı bir köməkçisiniz. Alətlərdən istifadə edərkən belə cavab verin: [...]"},
{"role": "user", "content": "San Francisco üçün hava məlumatı al"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "Siz faydalı bir köməkçisiniz. Alətlərdən istifadə edərkən belə cavab verin: [...]"},
{"role": "user", "content": "Havanı al"}
],
"reward_model": {
"ground_truth": "Hava məlumatını təmin etmək üçün, zəhmət olmasa yeri qeyd edərdinizmi?"
}
}
SageMaker AI ilə Qwen 2.5 7B Instruct modelinin dəqiq tənzimlənməsi
Amazon SageMaker AI Studio-da Qwen 2.5 7B Instruct kimi bir modelin dəqiq tənzimlənməsi prosesi sadələşdirilmiş və intuitivdir. Lazımi ilkin şərtlər (AWS hesabı, IAM rolu, SageMaker AI domaini, S3 qabı) yerinə yetirildikdən sonra istifadəçilər SageMaker AI Studio-da Modellər bölməsinə keçə bilərlər.
Oradan Qwen 2.5 7B Instruct seçərək və UI ilə fərdiləşdir seçimi ilə xüsusi bir konfiqurasiya səhifəsi açılır. Bu interfeys aşağıdakılara imkan verir:
- Texnika Seçimi: Açılan siyahıdan açıq şəkildə
Doğrulana Bilən Mükafatlarla Gücləndirici Öyrənmə (RLVR)seçmək. - Məlumat Girişi: Amazon S3 qabında saxlanılan hazırlanmış təlim məlumatlarına işarə etmək.
- Mükafat Funksiyası: Namizəd cavabların
ground_truthqarşısında necə qiymətləndirildiyini təyin edən pilləli qiymətləndirmə mexanizmini konfiqurasiya etmək. - Hiperparametr Konfiqurasiyası: Batch ölçüsü kimi parametrləri tənzimləmək, baxmayaraq ki, SageMaker AI tez-tez optimal parametrləri avtomatik idarə edir.
SageMaker AI, Amazon Nova, GPT-OSS, Llama, Qwen və DeepSeek kimi müxtəlif model ailələrini, habelə Nəzarətli Dəqiq Tənzimləmə (SFT), Birbaşa Üstünlük Optimizasiyası (DPO), RLVR və AI Geri Bildirimi ilə Gücləndirici Öyrənmə (RLAIF) kimi müxtəlif texnikaları dəstəkləyir. İnteqrasiya olunmuş MLflow izləməsi təlim və validasiya metriklərinə görünürlük təmin edərək performansın monitorinqini və iterasiyasını sadələşdirir. Bu istifadə asanlığı, mürəkkəb github-agentic-workflows quran inkişaf etdiricilər üçün inkişaf dövrəsini əhəmiyyətli dərəcədə sürətləndirir.
Qiymətləndirmə və Yerləşdirmə Uğuru
Dəqiq tənzimlənmiş Qwen 2.5 7B Instruct modelimizin effektivliyi saxlanılmış məlumatlar üzərində, o cümlədən tamamilə görülməmiş alətlər ilə ssenarilərdə ciddi şəkildə qiymətləndirildi – bu, ümumiləşdirmə üçün kritik bir testdir. Nəticələr təsirli idi: dəqiq tənzimlənmiş model əsas modelə nisbətən alət zəngi mükafatında diqqətəlayiq 57% yaxşılaşma əldə etdi. Təlim zamanı qarşılaşmadığı ssenarilərdə bu əhəmiyyətli performans sıçrayışı, modellərə alət qarşılıqlı əlaqəsi üçün möhkəm qərar qəbul etmə qabiliyyətlərini öyrətməkdə RLVR-nin gücünü vurğulayır.
Bu artırılmış etibarlılıq, AI agentlərini istehsal mühitlərinə yerləşdirməkdə daha yüksək etimad və güvənə birbaşa çevrilir. Alət xəyalları, yanlış parametrlər və uyğun olmayan hərəkətlər hallarını minimuma endirməklə, müəssisələr daha kritik və həssas tapşırıqlar üçün AI agentlərindən istifadə edə bilərlər. SageMaker AI modelin yerləşdirilməsi və infrastruktur idarəetməsi mürəkkəbliklərini həll etdiyi üçün, inkişaf etdiricilər dəqiq tənzimləmədən istehsala problemsiz keçə bilər, agentik AI həllərinin tam potensialını reallaşdıra bilərlər. Bu qabiliyyət, real dünya təsiri üçün agentik AI-nin işə salınması kimi daha geniş vizyonla uyğun gəlir.
Xülasə, Amazon SageMaker AI-nın serverless model fərdiləşdirməsi və RLVR-in möhkəm öyrənmə qabiliyyətlərinin birləşməsi, yüksək etibarlı agentik alət zəngi sistemləri qurmaq üçün güclü bir yol təqdim edir. Bu innovativ yanaşma inkişafı sürətləndirir, əməliyyat yükünü azaldır və nəticədə görünməmiş dəqiqlik və etibarlılıqla işləyən AI agentləri təmin edir.
Tez-tez Verilən Suallar
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Xəbərdar olun
Ən son AI xəbərlərini e-poçtunuza alın.
