{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Finjustering av Qwen 2.5 7B Instruct med SageMaker AI
Prosessen med å finjustere en modell som Qwen 2.5 7B Instruct innenfor Amazon SageMaker AI Studio er strømlinjeformet og intuitiv. Etter å ha sikret at de nødvendige forutsetningene (AWS-konto, IAM-rolle, SageMaker AI-domene, S3-bøtte) er oppfylt, kan brukere navigere til Modeller-seksjonen i SageMaker AI Studio.
Derfra åpner valg av Qwen 2.5 7B Instruct og deretter Tilpass med UI en dedikert konfigurasjonsside. Dette grensesnittet tillater:
- Valg av teknikk: Eksplisitt valg av
Forsterkningslæring med Verifiserbare Belønninger (RLVR)fra nedtrekkslisten. - Datainndata: Pek mot de forberedte treningsdataene lagret i en Amazon S3-bøtte.
- Belønningsfunksjon: Konfigurering av den lagdelte scoringsmekanismen som definerer hvordan kandidatsvar evalueres mot
fasiten. - Hyperparameterkonfigurasjon: Justering av parametere som batchstørrelse, selv om SageMaker AI ofte håndterer optimale innstillinger automatisk.
SageMaker AI støtter et mangfoldig utvalg av modellfamilier, inkludert Amazon Nova, GPT-OSS, Llama, Qwen og DeepSeek, sammen med ulike teknikker som Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR og Reinforcement Learning from AI Feedback (RLAIF). Integrert MLflow-sporing gir innsikt i trenings- og valideringsmetrikker, noe som forenkler ytelsesovervåking og iterasjon. Denne brukervennligheten akselererer utviklingssyklusen dramatisk for utviklere som bygger sofistikerte github-agentic-arbeidsflyter.
Evaluering og utrullingssuksess
Effektiviteten av vår finjusterte Qwen 2.5 7B Instruct-modell ble grundig evaluert på holdt-ut-data, inkludert scenarier med helt usett verktøy – en avgjørende test for generalisering. Resultatene var overbevisende: den finjusterte modellen oppnådde en bemerkelsesverdig 57 % forbedring i belønning for verktøykall sammenlignet med grunnmodellen. Dette betydelige spranget i ytelse på scenarier den ikke hadde møtt under trening, understreker kraften i RLVR for å lære modeller robuste beslutningsevner for verktøyinteraksjon.
Denne forbedrede påliteligheten oversettes direkte til høyere tillit og trygghet ved utrulling av AI-agenter i produksjonsmiljøer. Ved å minimere tilfeller av verktøyhallusinasjoner, feil parametere og upassende handlinger, kan bedrifter utnytte AI-agenter for mer kritiske og sensitive oppgaver. Med SageMaker AI som håndterer kompleksiteten med modellutrulling og infrastrukturadministrasjon, kan utviklere sømløst flytte fra finjustering til produksjon, og realisere det fulle potensialet i sine agentiske AI-løsninger. Denne evnen stemmer overens med den bredere visjonen om operationalisering av agentisk AI for reell innvirkning.
Oppsummert gir kombinasjonen av Amazon SageMaker AIs serverløse modelltilpasning og de robuste læringsmulighetene til RLVR en kraftig vei til å bygge svært pålitelige agentisk verktøykalling-systemer. Denne innovative tilnærmingen akselererer utviklingen, reduserer den driftsmessige byrden, og leverer til syvende og sist AI-agenter som presterer med enestående nøyaktighet og pålitelighet.
Opprinnelig kilde
https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/Ofte stilte spørsmål
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Hold deg oppdatert
Få de siste AI-nyhetene i innboksen din.
