{
"prompt": [
{"role": "system", "content": "Ti je një asistent i dobishëm. Kur përdor mjete, përgjigju me: [...]"},
{"role": "user", "content": "Merr motin"}
],
"reward_model": {
"ground_truth": "Për t'ju dhënë informacionin e motit, a mund të specifikoni vendndodhjen?"
}
}
Rregullimi i Imët i Qwen 2.5 7B Instruct me SageMaker AI
Procesi i rregullimit të imët të një modeli si Qwen 2.5 7B Instruct brenda Amazon SageMaker AI Studio është i thjeshtuar dhe intuitiv. Pasi të sigurohet që parakushtet e nevojshme (llogaria AWS, roli IAM, domeni SageMaker AI, depozita S3) janë plotësuar, përdoruesit mund të shkojnë te seksioni Modelet në SageMaker AI Studio.
Prej aty, zgjedhja e Qwen 2.5 7B Instruct dhe zgjedhja e Personalizo me UI hap një faqe dedikuar konfigurimi. Kjo ndërfaqe lejon:
- Zgjedhja e Teknikës: Zgjedhja shprehimisht e
Mësimit me Përforcim me Shpërblime të Verifikueshme (RLVR)nga menyja rënëse. - Hyrja e të Dhënave: Drejtimi te të dhënat e përgatitura të trajnimit të ruajtura në një depozitë Amazon S3.
- Funksioni i Shpërblimit: Konfigurimi i mekanizmit të vlerësimit me nivele që përcakton se si vlerësohen përgjigjet kandidate ndaj
ground_truth. - Konfigurimi i Hiperparametrave: Rregullimi i parametrave si madhësia e grupit, ndonëse SageMaker AI shpesh trajton automatikisht cilësimet optimale.
SageMaker AI mbështet një gamë të gjerë familjesh modelesh, duke përfshirë Amazon Nova, GPT-OSS, Llama, Qwen, dhe DeepSeek, së bashku me teknika të ndryshme si Rregullimi i Imët i Mbikëqyrur (SFT), Optimizimi i Preferencave Direkte (DPO), RLVR dhe Mësimi me Përforcim nga Reagimet e AI (RLAIF). Gjurmimi i integruar i MLflow ofron shikueshmëri në metrikën e trajnimit dhe vlefshmërisë, duke thjeshtuar monitorimin e performancës dhe përsëritjen. Kjo lehtësi përdorimi përshpejton në mënyrë dramatike ciklin e zhvillimit për zhvilluesit që ndërtojnë github-agentic-workflows të sofistikuara.
Vlerësimi dhe Suksesi i Vendosjes
Efikasiteti i modelit tonë Qwen 2.5 7B Instruct të rregulluar imët u vlerësua në mënyrë rigoroze mbi të dhëna të mbajtura jashtë, duke përfshirë skenarë me mjete tërësisht të panjohura – një test thelbësor për përgjithësim. Rezultatet ishin bindëse: modeli i rregulluar imët arriti një përmirësim të jashtëzakonshëm prej 57% në shpërblimin e thirrjes së mjeteve krahasuar me modelin bazë. Ky kërcim i rëndësishëm në performancë në skenarë që nuk i kishte hasur gjatë trajnimit thekson fuqinë e RLVR në mësimin e modeleve aftësitë e vendimmarrjes së fortë për ndërveprimin me mjetet.
Kjo besueshmëri e përmirësuar përkthehet drejtpërdrejt në besim dhe siguri më të lartë në vendosjen e agjentëve të AI në mjedise prodhimi. Duke minimizuar rastet e halucinacioneve të mjeteve, parametrat e pasaktë dhe veprimet e papërshtatshme, bizneset mund të shfrytëzojnë agjentët e AI për detyra më kritike dhe të ndjeshme. Me SageMaker AI që trajton kompleksitetet e vendosjes së modelit dhe menaxhimit të infrastrukturës, zhvilluesit mund të kalojnë pa probleme nga rregullimi i imët në prodhim, duke realizuar potencialin e plotë të zgjidhjeve të tyre të AI agjentike. Kjo aftësi përputhet me vizionin më të gjerë të operationalizimit të AI agjentike për ndikim në botën reale.
Në përmbledhje, kombinimi i personalizimit të modelit pa server të Amazon SageMaker AI dhe aftësive të forta të mësimit të RLVR ofron një rrugë të fuqishme për ndërtimin e sistemeve të thirrjes agjentike të mjeteve shumë të besueshme. Kjo qasje inovative përshpejton zhvillimin, redukton barrën operacionale dhe në fund të fundit ofron agjentë të AI që performojnë me saktësi dhe besueshmëri të pashembullt.
Burimi origjinal
https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/Pyetjet e bëra shpesh
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Qëndroni të përditësuar
Merrni lajmet më të fundit të AI në email.
