{
"prompt": [
{"role": "system", "content": "Jste užitečný asistent. Při používání nástrojů reagujte s: [...]"},
{"role": "user", "content": "Získat počasí"}
],
"reward_model": {
"ground_truth": "Abyste mi mohli poskytnout informace o počasí, můžete prosím upřesnit místo?"
}
}
Doladění Qwen 2.5 7B Instruct s SageMaker AI
Proces doladění modelu jako Qwen 2.5 7B Instruct v Amazon SageMaker AI Studio je zjednodušený a intuitivní. Po zajištění splnění nezbytných předpokladů (účet AWS, IAM role, doména SageMaker AI, S3 bucket) mohou uživatelé přejít do sekce Models v SageMaker AI Studio.
Odtud, výběrem Qwen 2.5 7B Instruct a volbou Customize with UI se otevře vyhrazená konfigurační stránka. Toto rozhraní umožňuje:
- Výběr techniky: Explicitní výběr
Reinforcement Learning with Verifiable Rewards (RLVR)z rozbalovacího menu. - Vstup dat: Odkazování na připravená tréninková data uložená v S3 kbelíku Amazon.
- Funkce odměn: Konfigurace víceúrovňového mechanismu skórování, který definuje, jak jsou kandidátské odpovědi vyhodnocovány proti
ground_truth. - Konfigurace hyperparametrů: Nastavení parametrů, jako je velikost dávky, ačkoli SageMaker AI často automaticky zpracovává optimální nastavení.
SageMaker AI podporuje širokou škálu rodin modelů, včetně Amazon Nova, GPT-OSS, Llama, Qwen a DeepSeek, spolu s různými technikami jako Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR a Reinforcement Learning from AI Feedback (RLAIF). Integrované sledování MLflow poskytuje přehled o metrikách tréninku a validace, zjednodušující monitorování výkonu a iterace. Toto snadné použití dramaticky urychluje vývojový cyklus pro vývojáře, kteří budují sofistikované github-agentic-workflows.
Vyhodnocení a úspěšné nasazení
Účinnost našeho doladěného modelu Qwen 2.5 7B Instruct byla přísně vyhodnocena na odložených datech, včetně scénářů se zcela neviděnými nástroji – kritický test pro zobecnění. Výsledky byly přesvědčivé: doladěný model dosáhl pozoruhodného 57% zlepšení v odměně za volání nástrojů ve srovnání se základním modelem. Tento významný skok ve výkonu ve scénářích, se kterými se během tréninku nesetkal, podtrhuje sílu RLVR při učení modelů robustním rozhodovacím schopnostem pro interakci s nástroji.
Tato zvýšená spolehlivost se přímo promítá do vyšší důvěry při nasazování agentů AI do produkčních prostředí. Minimalizací instancí halucinací nástrojů, nesprávných parametrů a nevhodných akcí mohou podniky využívat agenty AI pro kritičtější a citlivější úkoly. Díky tomu, že SageMaker AI zvládá složitost nasazení modelu a správy infrastruktury, mohou se vývojáři hladce přesunout od doladění k produkci a realizovat plný potenciál svých agentních řešení AI. Tato schopnost je v souladu s širší vizí operačního nasazení agentní AI pro reálný dopad.
Shrnuto, kombinace bezserverového přizpůsobení modelu Amazon SageMaker AI a robustních učebních schopností RLVR poskytuje silnou cestu k budování vysoce spolehlivých systémů agentického volání nástrojů. Tento inovativní přístup urychluje vývoj, snižuje provozní zátěž a v konečném důsledku dodává agenty AI, kteří fungují s bezprecedentní přesností a důvěryhodností.
Často kladené dotazy
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Buďte v obraze
Dostávejte nejnovější AI zprávy do schránky.
