{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Dolaďovanie Qwen 2.5 7B Instruct so SageMaker AI
Proces dolaďovania modelu ako Qwen 2.5 7B Instruct v Amazon SageMaker AI Studio je zjednodušený a intuitívny. Po zabezpečení splnenia potrebných predpokladov (účet AWS, rola IAM, doména SageMaker AI, S3 bucket) môžu používatelia prejsť do sekcie Modely v SageMaker AI Studio.
Odtiaľ, výberom Qwen 2.5 7B Instruct a voľbou Prispôsobiť pomocou UI sa otvorí špecializovaná konfiguračná stránka. Toto rozhranie umožňuje:
- Výber techniky: Explicitné zvolenie
Učenia posilňovaním s overiteľnými odmenami (RLVR)z rozbaľovacieho menu. - Vstup dát: Ukázanie na pripravené tréningové dáta uložené v Amazon S3 buckete.
- Funkcia odmeny: Konfiguráciu viacúrovňového mechanizmu bodovania, ktorý definuje, ako sú kandidátske odpovede vyhodnocované oproti
ground_truth. - Konfigurácia hyperparametrov: Nastavenie parametrov ako veľkosť dávky (batch size), hoci SageMaker AI často automaticky spracováva optimálne nastavenia.
SageMaker AI podporuje rozmanitú škálu rodín modelov, vrátane Amazon Nova, GPT-OSS, Llama, Qwen a DeepSeek, popri rôznych technikách ako Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR a Reinforcement Learning from AI Feedback (RLAIF). Integrované sledovanie pomocou MLflow poskytuje viditeľnosť do tréningových a validačných metrík, zjednodušujúc monitorovanie výkonu a iteráciu. Táto jednoduchosť použitia dramaticky urýchľuje vývojový cyklus pre vývojárov budujúcich sofistikované github-agentic-workflows.
Hodnotenie a úspešnosť nasadenia
Účinnosť nášho doladeného modelu Qwen 2.5 7B Instruct bola prísne vyhodnotená na zadržaných dátach, vrátane scenárov s úplne nepoznanými nástrojmi—kľúčový test pre generalizáciu. Výsledky boli presvedčivé: doladený model dosiahol pozoruhodné 57% zlepšenie v odmene za volanie nástrojov v porovnaní so základným modelom. Tento výrazný skok vo výkone v scenároch, s ktorými sa počas tréningu nestretol, podčiarkuje silu RLVR pri učení modelov robustných rozhodovacích schopností pre interakciu s nástrojmi.
Táto zvýšená spoľahlivosť sa priamo premieta do vyššej dôvery pri nasadzovaní AI agentov do produkčných prostredí. Minimalizovaním prípadov halucinácií nástrojov, nesprávnych parametrov a nevhodných akcií môžu podniky využívať AI agentov pre kritickejšie a citlivejšie úlohy. So SageMaker AI, ktorá zvláda zložitosť nasadenia modelu a správy infraštruktúry, sa vývojári môžu plynulo presunúť od dolaďovania k produkcii, čím naplno využijú potenciál svojich agentných AI riešení. Táto schopnosť je v súlade so širšou víziou prevádzkyschopnosti agentnej AI pre reálny dopad.
Zhrnuto, kombinácia serverless prispôsobenia modelu Amazon SageMaker AI a robustných schopností učenia RLVR poskytuje účinnú cestu k budovaniu vysoko spoľahlivých systémov agentného volania nástrojov. Tento inovatívny prístup urýchľuje vývoj, znižuje prevádzkovú záťaž a v konečnom dôsledku prináša AI agentov, ktorí fungujú s bezprecedentnou presnosťou a dôveryhodnosťou.
Často kladené otázky
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Buďte informovaní
Dostávajte najnovšie AI správy do schránky.
