{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Fino podešavanje Qwen 2.5 7B Instruct modela sa SageMaker AI
Proces finog podešavanja modela kao što je Qwen 2.5 7B Instruct unutar Amazon SageMaker AI Studija je pojednostavljen i intuitivan. Nakon što se uvere da su ispunjeni neophodni preduslovi (AWS nalog, IAM uloga, SageMaker AI domen, S3 bucket), korisnici mogu da odu na odeljak Models u SageMaker AI Studiju.
Odatle, odabir Qwen 2.5 7B Instruct i izbor Customize with UI otvara posvećenu stranicu za konfiguraciju. Ovaj interfejs omogućava:
- Odabir tehnike: Eksplicitno odabir
Učenja potkrepljivanjem sa proverljivim nagradama (RLVR)iz padajućeg menija. - Unos podataka: Pokazivanje na pripremljene podatke za obuku pohranjene u Amazon S3 bucket-u.
- Funkcija nagrađivanja: Konfigurisanje mehanizma za ocenjivanje na više nivoa koji definiše kako se kandidatski odgovori ocenjuju u odnosu na
ground_truth. - Konfiguracija hiperparametara: Podešavanje parametara kao što je veličina batch-a, mada SageMaker AI često automatski upravlja optimalnim postavkama.
SageMaker AI podržava raznolik spektar familija modela, uključujući Amazon Nova, GPT-OSS, Llama, Qwen i DeepSeek, pored različitih tehnika kao što su Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR i Reinforcement Learning from AI Feedback (RLAIF). Integrisano MLflow praćenje pruža uvid u metrike obuke i validacije, pojednostavljujući praćenje performansi i iteraciju. Ova jednostavnost korišćenja dramatično ubrzava životni ciklus razvoja za programere koji grade sofisticirane github-agentske-radne-tokove.
Evaluacija i uspeh implementacije
Efikasnost našeg fino podešenog Qwen 2.5 7B Instruct modela je rigorozno evaluirana na zadržanim podacima, uključujući scenarije sa potpuno neviđenim alatima—što je ključan test za generalizaciju. Rezultati su bili ubedljivi: fino podešeni model je postigao izvanredno poboljšanje od 57% u nagradi za poziv alata u poređenju sa baznim modelom. Ovaj značajan skok u performansama u scenarijima koje nije susreo tokom obuke naglašava moć RLVR-a u podučavanju modela robusnim sposobnostima donošenja odluka za interakciju sa alatima.
Ova poboljšana pouzdanost direktno se prevodi u veće poverenje i sigurnost u implementaciju AI agenata u proizvodna okruženja. Minimiziranjem slučajeva haluciniranja alata, netačnih parametara i neprikladnih radnji, preduzeća mogu iskoristiti AI agente za kritičnije i osetljivije zadatke. Sa SageMaker AI koji upravlja složenošću implementacije modela i upravljanja infrastrukturom, programeri mogu bez problema preći sa finog podešavanja na produkciju, ostvarujući pun potencijal svojih agentskih AI rešenja. Ova sposobnost se usklađuje sa širom vizijom operacionalizacije agentske AI za uticaj u stvarnom svetu.
Ukratko, kombinacija serverless prilagođavanja modela Amazon SageMaker AI-a i robusnih mogućnosti učenja RLVR-a pruža moćan put ka izgradnji izuzetno pouzdanih sistema pozivanja agentskih alata. Ovaj inovativni pristup ubrzava razvoj, smanjuje operativni teret i konačno isporučuje AI agente koji rade sa neviđenom preciznošću i pouzdanošću.
Originalni izvor
https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/Često postavljana pitanja
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Будите у току
Примајте најновије AI вести на имејл.
