{
"prompt": [
{"role": "system", "content": "Olet avulias assistentti. Kun käytät työkaluja, vastaa: [...]"},
{"role": "user", "content": "Hae sää"}
],
"reward_model": {
"ground_truth": "Antaakseni sinulle säätiedot, voisitko ystävällisesti tarkentaa sijainnin?"
}
}
Qwen 2.5 7B Instruct -mallin hienosäätö SageMaker AI:n avulla
Qwen 2.5 7B Instruct -mallin kaltaisen mallin hienosäätö Amazon SageMaker AI Studiossa on virtaviivaista ja intuitiivista. Kun tarvittavat edellytykset (AWS-tili, IAM-rooli, SageMaker AI -domain, S3-säiliö) on täytetty, käyttäjät voivat siirtyä SageMaker AI Studion Malleihin-osioon.
Sieltä valitsemalla Qwen 2.5 7B Instruct ja valitsemalla Mukauta käyttöliittymällä avautuu oma konfigurointisivu. Tämä käyttöliittymä mahdollistaa:
- Tekniikan valinta: Valitaan nimenomaisesti
Vahvistusoppiminen varmennettavilla palkkioilla (RLVR)avattavasta valikosta. - Datan syöttö: Osoitetaan Amazon S3 -säilöön tallennettuun valmisteltuun harjoitusdataan.
- Palkkiofunktio: Määritetään porrastettu pisteytysmekanismi, joka määrittää, miten ehdokasvastauksia arvioidaan
ground_truth-arvoa vastaan. - Hyperparametrien konfigurointi: Säädetään parametreja, kuten eräkokoa, vaikka SageMaker AI usein käsittelee optimaaliset asetukset automaattisesti.
SageMaker AI tukee monipuolista valikoimaa malliperheitä, mukaan lukien Amazon Nova, GPT-OSS, Llama, Qwen ja DeepSeek, sekä erilaisia tekniikoita, kuten ohjattua hienosäätöä (SFT), suoraa preferenssioptimointia (DPO), RLVR:ää ja vahvistusoppimista tekoälypalautteen perusteella (RLAIF). Integroitu MLflow-seuranta tarjoaa näkyvyyden harjoitus- ja validointimetriikoihin, yksinkertaistaen suorituskyvyn seurantaa ja iteraatiota. Tämä helppokäyttöisyys kiihdyttää dramaattisesti kehitysjaksoa kehittäjille, jotka rakentavat kehittyneitä github-agenttipohjaisia työnkulkuja.
Arviointi ja käyttöönoton menestys
Hienosäädetyt Qwen 2.5 7B Instruct -mallimme tehokkuus arvioitiin perusteellisesti pidetyn datan perusteella, mukaan lukien skenaariot, joissa oli täysin tuntemattomia työkaluja – ratkaiseva testi yleistämiselle. Tulokset olivat vakuuttavia: hienosäädetty malli saavutti huomattavan 57 %:n parannuksen työkalukutsun palkkiossa verrattuna perusmalliin. Tämä merkittävä hyppy suorituskyvyssä skenaarioissa, joita se ei ollut kohdannut koulutuksen aikana, korostaa RLVR:n voimaa opettaa malleille vankkoja päätöksentekokykyjä työkaluvuorovaikutukseen.
Tämä parantunut luotettavuus tarkoittaa suoraan suurempaa luottamusta ja varmuutta tekoälyagenttien käyttöönotossa tuotantoympäristöihin. Minimoidessaan työkaluhallusinaatioiden, virheellisten parametrien ja sopimattomien toimintojen esiintymisiä yritykset voivat hyödyntää tekoälyagentteja kriittisemmissä ja herkemmissä tehtävissä. Kun SageMaker AI hoitaa mallin käyttöönoton ja infrastruktuurin hallinnan monimutkaisuuden, kehittäjät voivat saumattomasti siirtyä hienosäädöstä tuotantoon, toteuttaen agenttipohjaisten tekoälyratkaisujensa täyden potentiaalin. Tämä ominaisuus on linjassa laajemman vision kanssa agenttipohjaisen tekoälyn operationalisoinnista todellisen maailman vaikutuksia varten.
Yhteenvetona voidaan todeta, että Amazon SageMaker AI:n palvelimettoman mallin räätälöinnin ja RLVR:n vankkojen oppimiskykyjen yhdistelmä tarjoaa tehokkaan tavan rakentaa erittäin luotettavia agenttityökalukutsu -järjestelmiä. Tämä innovatiivinen lähestymistapa kiihdyttää kehitystä, vähentää toiminnallista taakkaa ja viime kädessä tuottaa tekoälyagentteja, jotka toimivat ennennäkemättömällä tarkkuudella ja luotettavuudella.
Alkuperäinen lähde
https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/Usein kysytyt kysymykset
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Pysy ajan tasalla
Saa uusimmat tekoälyuutiset sähköpostiisi.
