{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Fínstilling Qwen 2.5 7B Instruct með SageMaker AI
Ferlið við fínstillingu líkans eins og Qwen 2.5 7B Instruct innan Amazon SageMaker AI Studio er straumlínulagað og auðskilið. Eftir að hafa tryggt að nauðsynlegar forkröfur (AWS reikningur, IAM hlutverk, SageMaker AI lén, S3 geymsla) séu uppfylltar geta notendur farið í Líkön hlutann í SageMaker AI Studio.
Þaðan, með því að velja Qwen 2.5 7B Instruct og velja Sérsníða með notendaviðmóti opnast sérstök stillingarsíða. Þetta viðmót gerir kleift að:
- Val á tækni: Að velja sérstaklega
Styrktarnám með sannreynanlegum verðlaunum (RLVR)úr fellilistanum. - Gagnainnsláttur: Að benda á undirbúin þjálfunargögn sem eru geymd í Amazon S3 geymslu.
- Verðlaunafall: Að stilla stigveldisbundna stigakerfið sem skilgreinir hvernig svörunarkandidatar eru metnir út frá
ground_truth. - Stillingu ofbreyta: Að stilla breytur eins og stærð runu, þó að SageMaker AI sjái oft um bestu stillingar sjálfkrafa.
SageMaker AI styður fjölbreytt úrval líkanategunda, þar á meðal Amazon Nova, GPT-OSS, Llama, Qwen, og DeepSeek, ásamt ýmsum aðferðum eins og stýrðri fínstillingu (SFT), beinni hagræðingu valkosta (DPO), RLVR, og styrktarnámi frá gervigreindarviðbrögðum (RLAIF). Samþætt MLflow mæling veitir innsýn í þjálfunar- og staðfestingarmælingar, sem einfaldar afkestaeftirlit og ítrekun. Þessi auðveldleiki í notkun flýtir verulega fyrir þróunarferlinu fyrir þróunaraðila sem byggja flókna github-agentic-workflows.
Mat og árangur í innleiðingu
Skilvirkni okkar fínstillta Qwen 2.5 7B Instruct líkans var nákvæmlega metin á gögnum sem voru geymd utan, þar á meðal sviðsmyndum með algjörlega óþekktum verkfærum – mikilvægt próf fyrir alhæfingu. Niðurstöðurnar voru sannfærandi: fínstillta líkanið náði ótrúlegum 57% bata í verðlaunum fyrir tólaútköllun samanborið við grunnlíkanið. Þetta mikilvæga stökk í frammistöðu á sviðsmyndum sem það hafði ekki mætt á meðan á þjálfun stóð undirstrikar mátt RLVR til að kenna líkönum öfluga ákvarðanatökugetu fyrir samskipti við verkfæri.
Þessi aukna áreiðanleiki skilar sér beint í aukið traust og sjálfstraust við innleiðingu gervigreindarumboðsmanna í framleiðsluumhverfi. Með því að lágmarka tilfelli af ímynduðum verkfærum, röngum viðföngum og óviðeigandi aðgerðum geta fyrirtæki nýtt sér gervigreindarumboðsmenn fyrir mikilvægari og viðkvæmari verkefni. Með SageMaker AI sem sér um flókna líkanadreifingu og innviðastjórnun geta þróunaraðilar óaðfinnanlega fært sig frá fínstillingu til framleiðslu, og nýtt allan möguleikann í gervigreindarlausnum sínum. Þessi geta samræmist víðtækari sýn á að gera umboðs-gervigreind virka fyrir raunveruleg áhrif.
Í stuttu máli, samsetning miðlaralausrar sérsniðnunar líkana frá Amazon SageMaker AI og öflugra námsgetu RLVR veitir öfluga leið til að byggja upp mjög áreiðanleg umboðsstýrð tólaútkalls kerfi. Þessi nýstárlega nálgun flýtir fyrir þróun, dregur úr rekstrarálagi og skilar að lokum gervigreindarumboðsmönnum sem starfa með óviðjafnanlegri nákvæmni og áreiðanleika.
Upprunaleg heimild
https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/Algengar spurningar
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Fylgstu með
Fáðu nýjustu gervigreindarfréttirnar í pósthólfið.
