SageMaker AI: Ubrzavanje agentnog pozivanja alata uz poslužiteljsku prilagodbu
Agentna umjetna inteligencija (AI) revolucionirala je način na koji razmišljamo o automatiziranim zadacima, omogućujući sustavima donošenje odluka i interakciju sa svijetom putem specijaliziranih alata. Međutim, stvarna korisnost AI agenata u produkciji ovisi o njihovoj sposobnosti da pouzdano izvršavaju agentno pozivanje alata. To je način na koji agenti pretražuju baze podataka, pokreću složene radne tokove, dohvaćaju podatke u stvarnom vremenu i djeluju odlučno u ime korisnika. Nažalost, uobičajena prepreka široj primjeni bila je tendencija osnovnih velikih jezičnih modela (LLM-ova) da haluciniraju alate, prosljeđuju netočne parametre ili pokušavaju radnje kada je potrebno pojašnjenje. Takvi neuspjesi narušavaju povjerenje i značajno otežavaju produkcijsko implementiranje.
Amazon SageMaker AI rješava ove kritične izazove. Nudeći poslužiteljsku prilagodbu modela, razvojni programeri mogu fino ugoditi LLM-ove za robusno agentno pozivanje alata bez uobičajenih operativnih troškova. Središnja točka ove inovacije je Učenje potkrepljenjem s provjerljivim nagradama (RLVR), tehnika koja modelima omogućuje generiranje i provjeru vlastitih odgovora, učeći favorizirati uspješne interakcije s alatima. Ovaj članak detaljno opisuje kako SageMaker AI, koristeći RLVR, dramatično poboljšava pouzdanost agenta, pokazujući poboljšanje nagrade za pozivanje alata od 57% na neviđenim scenarijima s fino ugađenim modelom Qwen 2.5 7B Instruct.
Obećanja i opasnosti agentnog pozivanja alata
Koncept AI agenata koji komuniciraju s vanjskim sustavima putem alata kamen je temeljac naprednih AI aplikacija. Zamislite agenta koji može rezervirati letove, sažeti dokumente iz baze podataka ili čak izvršiti kod na temelju upita prirodnog jezika. Upravo tu funkcionalnost omogućuje agentno pozivanje alata. Ipak, put do pouzdane upotrebe alata prepun je izazova.
Osnovni LLM-ovi, iako moćni u generiranju jezika, često nemaju nijansirano razumijevanje potrebno za precizno pozivanje alata. Mogli bi pretpostaviti alat koji ne postoji, pogrešno protumačiti korisnikovu namjeru što dovodi do netočnih vrijednosti parametara ili ne prepoznati kada nedostaju kritične informacije. Ove pogreške dovode do frustrirajućih korisničkih iskustava i čine implementaciju na razini poduzeća rizičnom. Za organizacije koje žele učinkovito operacionalizirati AI agente, osiguravanje predvidljivog i pouzdanog izvršavanja alata je najvažnije. Ulozi su visoki, jer pouzdani agenti mogu otključati neviđene razine automatizacije i učinkovitosti, dok nepouzdani mogu dovesti do skupih pogrešaka i nezadovoljstva korisnika. Zato je robusna optimizacija modela za agentne radne tokove ključna, a zadatak je pojednostavljen platformama poput SageMaker AI.
Prilagodba modela bez poslužitelja: Prednost SageMaker AI
Tradicionalni pristup poboljšanju performansi LLM-a često uključuje značajno upravljanje infrastrukturom – od nabave GPU-a i orkestracije memorije do složene infrastrukture nagrađivanja i kontrolnih točaka za učenje potkrepljenjem. Ovi zadaci uvode znatan operativni trošak, preusmjeravajući vrijedne resurse razvojnih programera od fokusiranja na ključni problem: pročišćavanje ponašanja modela.
Amazon SageMaker AI-ova prilagodba modela bez poslužitelja uklanja ovaj teret. Razvojni programeri mogu odabrati temeljni model (npr. Qwen, Llama, GPT-OSS), konfigurirati tehniku finog ugađanja poput RLVR-a, uputiti na svoje podatke i definirati funkciju nagrađivanja. SageMaker AI zatim upravlja cijelim pozadinskim procesom, od skaliranja računalnih resursa do upravljanja fazama obuke i ugađanja hiperparametara. Ova apstrakcija omogućuje timovima da se usredotoče na kvalitetu skupa podataka i dizajn funkcije nagrađivanja, što su pravi pokretači poboljšanja modela. Za poduzeća, ovaj pristup bez poslužitelja prevodi se u brže iteracijske cikluse, smanjene troškove i nižu prepreku za ulazak u naprednu prilagodbu LLM-ova. To mijenja igru za one koji žele skalirati AI za sve pojednostavljivanjem složenih procesa finog ugađanja LLM-ova.
Zašto je RLVR izvrstan za agentno pozivanje alata
Kada je riječ o podučavanju AI agenta da pouzdano koristi alate, nisu sve tehnike finog ugađanja jednake. Nadzirano fino ugađanje (SFT) zahtijeva pomno označene primjere za svako moguće ponašanje koje model treba pokazati – pozivanje alata, traženje pojašnjenja ili odbijanje zahtjeva. Izazov kod SFT-a je njegova borba za generaliziranje procesa donošenja odluka između ovih različitih ponašanja, često dobro funkcionirajući na obrascima viđenim tijekom obuke, ali posrćući u novim scenarijima.
Učenje potkrepljenjem s provjerljivim nagradama (RLVR) nudi dinamičnije i učinkovitije rješenje. Za razliku od SFT-a, RLVR djeluje na povratnoj petlji:
- Generiranje kandidata: Za svaki upit, model generira više (npr. osam) potencijalnih odgovora.
- Evaluacija funkcije nagrađivanja: Predefinirana
funkcija nagrađivanjaobjektivno boduje svakog kandidata, ukazujući na njegovu kvalitetu, ispravnost i pridržavanje željenog ponašanja (npr. je li pozvao pravi alat s ispravnim parametrima?). - Ažuriranje politike: Koristeći Optimizaciju grupne relativne politike (GRPO), politika modela se ažurira kako bi pojačala odgovore koji su postigli rezultat iznad prosjeka generirane grupe. Ovaj proces iterativno vodi model prema optimalnijem ponašanju.
Ovo iterativno učenje omogućuje modelu da razumije ne samo kako izvršiti određenu radnju, već i kada je izvršiti. Uči nijanse razlikovanja između situacija kada je pozivanje alata prikladno, kada je potrebno pojašnjenje ili kada je odbijanje najbolji tijek radnje. Budući da pozivanje alata ima prirodno provjerljiv cilj — je li model pozvao ispravnu funkciju s ispravnim parametrima — iznimno se dobro uklapa u RLVR paradigmu, čineći ga idealnim za AI agente koji zahtijevaju visoku pouzdanost. Ova metoda učinkovito rješava izazov dizajniranja agenata da se odupru prompt injekciji pojačavanjem preciznih obrazaca djelovanja.
Priprema visokokvalitetnih podataka za obuku za RLVR
Uspjeh svakog napora finog ugađanja, posebno s RLVR-om, ovisi o kvaliteti i sveobuhvatnosti podataka za obuku. Za agentno pozivanje alata, skup podataka mora naučiti model više od samo ispravnih API poziva; mora obuhvatiti cijeli spektar potrebnih ponašanja agenta.
Naš pristup uključivao je generiranje 1.500 sintetičkih primjera obuke pomoću Kiro-a, Amazonovog IDE-a pokretanog umjetnom inteligencijom. Ti su primjeri obuhvaćali pet različitih shema alata: get_weather_forecast, search_flights, translate_text, currency_convert i get_statistics. Ključno je da su podaci raspoređeni kroz tri primarna ponašanja agenta kako bi se osiguralo uravnoteženo učenje:
| Ponašanje | Opis | Postotak | Primjer istinske vrijednosti |
|---|---|---|---|
| Izvrši | Korisnik daje sve potrebne parametre, model treba pozvati alat. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Pojašnjenje | U zahtjevu korisnika nedostaju obavezni parametri, model bi trebao tražiti pojašnjenje. | 25% | Kako bih vam pružio informacije o vremenu, možete li molim vas navesti lokaciju? |
| Odbij | Zahtjev je štetan ili izvan opsega, model bi trebao pristojno odbiti. | 15% | Žao mi je, ne mogu ispuniti taj zahtjev. |
Svaki primjer obuke slijedio je JSONL format, uključujući upit (sustavne upute i korisnički zahtjev) i ground_truth u polju reward_model protiv kojeg funkcija nagrađivanja boduje. Različito formuliranje između formalnog, neformalnog i sažetog dodatno je poboljšalo robusnost skupa podataka. Dok sintetički podaci pružaju praktičnu početnu točku, organizacije s postojećim agentnim radnim tokovima mogu iskoristiti stvarne korisničke upite i pozive alata iz produkcijskih logova kako bi postigle još višu kvalitetu obuke. Ova priprema podataka kritičan je korak u inženjeringu upita za složena ponašanja agenta.
{
"prompt": [
{"role": "system", "content": "Vi ste koristan asistent. Kada koristite alate, odgovorite sa: [...]"},
{"role": "user", "content": "Dohvati vrijeme za San Francisco"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "Vi ste koristan asistent. Kada koristite alate, odgovorite sa: [...]"},
{"role": "user", "content": "Dohvati vrijeme"}
],
"reward_model": {
"ground_truth": "Kako bih vam pružio informacije o vremenu, možete li molim vas navesti lokaciju?"
}
}
Fino ugađanje Qwen 2.5 7B Instruct s SageMaker AI
Proces finog ugađanja modela poput Qwen 2.5 7B Instruct unutar Amazon SageMaker AI Studija je pojednostavljen i intuitivan. Nakon što su ispunjeni potrebni preduvjeti (AWS račun, IAM uloga, SageMaker AI domena, S3 bucket), korisnici mogu navigirati do odjeljka Models (Modeli) u SageMaker AI Studiju.
Odatle, odabirom Qwen 2.5 7B Instruct i odabirom Prilagodi putem korisničkog sučelja otvara se namjenska stranica za konfiguraciju. Ovo sučelje omogućuje:
- Odabir tehnike: Eksplicitno odabiranje
Učenja potkrepljenjem s provjerljivim nagradama (RLVR)iz padajućeg izbornika. - Unos podataka: Usmjeravanje na pripremljene podatke za obuku pohranjene u Amazon S3 'bucketu'.
- Funkcija nagrađivanja: Konfiguriranje višeslojnog mehanizma bodovanja koji definira kako se kandidatni odgovori evaluiraju u odnosu na
ground_truth. - Konfiguracija hiperparametara: Podešavanje parametara poput veličine paketa (batch size), iako SageMaker AI često automatski upravlja optimalnim postavkama.
SageMaker AI podržava raznolik raspon obitelji modela, uključujući Amazon Nova, GPT-OSS, Llama, Qwen i DeepSeek, zajedno s različitim tehnikama poput nadziranog finog ugađanja (SFT), optimizacije direktne preferencije (DPO), RLVR i učenja potkrepljenjem iz povratnih informacija AI (RLAIF). Integrirano MLflow praćenje pruža uvid u metrike obuke i validacije, pojednostavljujući praćenje performansi i iteraciju. Ova lakoća korištenja dramatično ubrzava životni ciklus razvoja za programere koji grade sofisticirane github-agentne-radne-tokove.
Evaluacija i uspjeh implementacije
Učinkovitost našeg fino ugađenog modela Qwen 2.5 7B Instruct rigorozno je evaluirana na zadržanim podacima, uključujući scenarije s potpuno neviđenim alatima—što je ključan test za generalizaciju. Rezultati su bili uvjerljivi: fino ugađeni model postigao je izvanredno poboljšanje od 57% u nagradi za pozivanje alata u usporedbi s osnovnim modelom. Ovaj značajan skok u performansama na scenarijima s kojima se nije susreo tijekom obuke podvlači snagu RLVR-a u podučavanju modela robusnim sposobnostima donošenja odluka za interakciju s alatima.
Ova poboljšana pouzdanost izravno se prevodi u veće povjerenje u implementaciju AI agenata u produkcijska okruženja. Minimiziranjem slučajeva 'haluciniranja' alata, netočnih parametara i neprikladnih radnji, poduzeća mogu iskoristiti AI agente za kritičnije i osjetljivije zadatke. S SageMaker AI koji rješava složenosti implementacije modela i upravljanja infrastrukturom, razvojni programeri mogu neometano prelaziti s finog ugađanja na produkciju, ostvarujući puni potencijal svojih agentnih AI rješenja. Ova se sposobnost usklađuje sa širom vizijom operacionalizacije agentne AI za stvarni utjecaj.
Ukratko, kombinacija prilagodbe modela bez poslužitelja Amazon SageMaker AI i robusnih mogućnosti učenja RLVR-a pruža snažan put do izgradnje vrlo pouzdanih sustava agentnog pozivanja alata. Ovaj inovativni pristup ubrzava razvoj, smanjuje operativno opterećenje i u konačnici isporučuje AI agente koji rade s neviđenom točnošću i pouzdanošću.
Često postavljana pitanja
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Budite u toku
Primajte najnovije AI vijesti na e-mail.
