SageMaker AI: Az ügynöki eszközhívás felgyorsítása szerver nélküli modelltestreszabással
Az ügynöki AI forradalmasította az automatizált feladatokról való gondolkodásunkat, lehetővé téve a rendszerek számára, hogy döntéseket hozzanak és interakcióba lépjenek a világgal speciális eszközökön keresztül. Az AI ügynökök valódi hasznossága a termelésben azonban attól függ, hogy mennyire képesek megbízhatóan ügynöki eszközhívásokat végezni. Ez az, ahogyan az ügynökök adatbázisokat kérdeznek le, komplex munkafolyamatokat indítanak el, valós idejű adatokat hívnak le, és határozottan cselekednek a felhasználó nevében. Sajnos a széles körű elterjedés egyik gyakori akadálya az alap nagyméretű nyelvi modellek (LLM-ek) azon hajlama, hogy hallucináljanak nem létező eszközöket, hibás paramétereket adjanak át, vagy kísérletezzenek műveletekkel, amikor tisztázásra lenne szükség. Az ilyen hibák aláássák a bizalmat és jelentősen akadályozzák a termelési bevezetést.
Az Amazon SageMaker AI lépéseket tesz e kritikus kihívások megoldására. A szerver nélküli modelltestreszabás biztosításával a fejlesztők finomhangolhatják az LLM-eket a robusztus ügynöki eszközhíváshoz anélkül, hogy a tipikus operatív terhekkel járna. Ennek az innovációnak a központi eleme az Ellenőrizhető Jutalmakkal Rendelkező Megerősítő Tanulás (RLVR), egy technika, amely felvértezi a modelleket azzal, hogy saját válaszaikat generálják és validálják, megtanulva előnyben részesíteni a sikeres eszközinterakciókat. Ez a bejegyzés azt vizsgálja, hogyan javítja drámaian a SageMaker AI, az RLVR-t használva, az ügynök megbízhatóságát, bemutatva egy 57%-os javulást az eszközhívási jutalomban ismeretlen forgatókönyvek esetén egy finomhangolt Qwen 2.5 7B Instruct modellel.
Az ügynöki eszközhívás ígérete és veszélyei
Az AI ügynökök külső rendszerekkel való, eszközökön keresztüli interakciójának koncepciója az fejlett AI alkalmazások alapköve. Képzeljünk el egy ügynököt, amely képes repülőjegyeket foglalni, dokumentumokat összefoglalni egy adatbázisból, vagy akár kódot futtatni egy természetes nyelvi prompt alapján. Ezt a funkcionalitást teszi lehetővé pontosan az ügynöki eszközhívás. Mégis, a megbízható eszközhasználathoz vezető út tele van kihívásokkal.
Az alap LLM-ek, bár erőteljesek a nyelvi generálásban, gyakran hiányolják a pontos eszközinvokációhoz szükséges árnyalt megértést. Előfordulhat, hogy nem létező eszközt következtetnek ki, félreértelmezik a felhasználói szándékot, ami helytelen paraméterértékekhez vezet, vagy nem ismerik fel, ha kritikus információ hiányzik. Ezek a tévedések frusztráló felhasználói élményekhez vezetnek, és kockázatossá teszik a vállalati szintű bevezetést. Azoknak a szervezeteknek, amelyek hatékonyan szeretnék működtetni az AI ügynököket, kulcsfontosságú a kiszámítható és megbízható eszközvégrehajtás biztosítása. A tét nagy, mivel a megbízható ügynökök soha nem látott szinteket nyithatnak meg az automatizálásban és a hatékonyságban, míg a megbízhatatlanok költséges hibákhoz és felhasználói elégedetlenséghez vezethetnek. Ezért elengedhetetlen a robusztus modell optimalizálás az ügynöki munkafolyamatokhoz, amit az olyan platformok, mint a SageMaker AI, egyszerűbbé tesznek.
Szerver nélküli modelltestreszabás: A SageMaker AI előnye
Az LLM teljesítményének javítására szolgáló hagyományos megközelítés gyakran jelentős infrastruktúra-menedzsmentet foglal magában – a GPU beszerzéstől és a memória orchestrációtól a komplex jutalmazási infrastruktúráig és a megerősítő tanuláshoz szükséges ellenőrzőpontokig. Ezek a feladatok jelentős operatív terheket rónak, elterelve az értékes fejlesztői erőforrásokat a fő problémáról: a modell viselkedésének finomításáról.
Az Amazon SageMaker AI szerver nélküli modelltestreszabása megszünteti ezt a terhet. A fejlesztők kiválaszthatnak egy alapmodellt (pl. Qwen, Llama, GPT-OSS), konfigurálhatnak egy finomhangolási technikát, például az RLVR-t, megadhatják az adataikat, és meghatározhatnak egy jutalomfüggvényt. A SageMaker AI ezután kezeli a teljes backend folyamatot, a számítási erőforrások skálázásától a képzési fázisok és a hiperparaméter-hangolás kezeléséig. Ez az absztrakció lehetővé teszi a csapatok számára, hogy az adatkészlet minőségére és a jutalomfüggvény tervezésére összpontosítsanak, amelyek a modellfejlesztés igazi mozgatórugói. Vállalatok számára ez a szerver nélküli megközelítés gyorsabb iterációs ciklusokat, csökkentett költségeket és alacsonyabb belépési küszöböt jelent a fejlett LLM testreszabáshoz. Ez egy forradalmi változás azok számára, akik mindenki számára skálázható AI-t szeretnének, a komplex LLM-ek finomhangolásának egyszerűsítésével.
Miért kiemelkedő az RLVR az ügynöki eszközhíváshoz?
Amikor arról van szó, hogy egy AI ügynököt megbízhatóan megtanítsunk eszközöket használni, nem minden finomhangolási technika egyenlő. A felügyelt finomhangolás (SFT) gondosan címkézett példákat igényel minden olyan lehetséges viselkedéshez, amelyet egy modellnek mutatnia kell – eszköz hívása, tisztázás kérése vagy kérés elutasítása. Az SFT kihívása az, hogy nehezen tudja általánosítani a döntéshozatali folyamatot ezen különböző viselkedések között, gyakran jól teljesít a képzés során látott mintákon, de új forgatókönyvek esetén hibázik.
Az Ellenőrizhető Jutalmakkal Rendelkező Megerősítő Tanulás (RLVR) dinamikusabb és hatékonyabb megoldást kínál. Az SFT-től eltérően az RLVR egy visszacsatolási hurkon keresztül működik:
- Jelölt Generálás: Minden promptra a modell több (pl. nyolc) potenciális választ generál.
- Jutalomfüggvény Értékelése: Egy előre meghatározott
jutalomfüggvényobjektíven pontozza az egyes jelölteket, jelezve azok minőségét, helyességét és a kívánt viselkedéshez való illeszkedését (pl. a megfelelő eszközt hívta-e meg a megfelelő paraméterekkel?). - Irányelv Frissítése: A Group Relative Policy Optimization (GRPO) segítségével a modell irányelve frissül, hogy megerősítse azokat a válaszokat, amelyek a generált csoport átlaga feletti pontszámot kaptak. Ez a folyamat iteratívan vezeti a modellt az optimálisabb viselkedés felé.
Ez az iteratív tanulás lehetővé teszi a modell számára, hogy ne csak azt értse meg, hogyan kell egy specifikus műveletet végrehajtani, hanem azt is, mikor kell azt végrehajtani. Megtanulja az árnyalatokat a helyzetek megkülönböztetésében, ahol egy eszközhívás megfelelő, tisztázásra van szükség, vagy az elutasítás a legjobb cselekvési mód. Mivel az eszközhívásnak természetesen ellenőrizhető célja van – hogy a modell a megfelelő függvényt hívta-e meg a megfelelő paraméterekkel –, kivételesen jól illeszkedik az RLVR paradigmához, így ideális a nagy megbízhatóságot igénylő AI ügynökök számára. Ez a módszer hatékonyan kezeli a prompt injekcióval szembeni ügynökök tervezésének kihívását a pontos cselekvési minták megerősítésével.
Kiváló minőségű tréningadatok előkészítése RLVR-hez
Bármely finomhangolási erőfeszítés, különösen az RLVR esetében, a tréningadatok minőségén és teljességén múlik. Az ügynöki eszközhíváshoz az adatkészletnek nemcsak a helyes API-hívásokat kell megtanítania a modellnek; magában kell foglalnia a szükséges ügynökviselkedések teljes spektrumát.
Megközelítésünk 1 500 szintetikus tréningpélda generálását foglalta magában az Amazon AI-alapú IDE-jével, a Kiro-val. Ezek a példák öt különböző eszközsémát fedtek le: get_weather_forecast, search_flights, translate_text, currency_convert, és get_statistics. Kulcsfontosságú, hogy az adatok három elsődleges ügynökviselkedés között oszlottak meg a kiegyensúlyozott tanulás biztosítása érdekében:
| Viselkedés | Leírás | Százalék | Igazságérték Példa |
|---|---|---|---|
| Végrehajtás | A felhasználó minden szükséges paramétert megad, a modellnek eszközt kell hívnia. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Tisztázás | A felhasználó kéréséből hiányoznak a szükséges paraméterek, a modellnek tisztázást kell kérnie. | 25% | Az időjárási információk megadásához kérem, adja meg a helyszínt. |
| Elutasítás | A kérés káros vagy hatókörön kívüli, a modellnek udvariasan el kell utasítania. | 15% | Sajnálom, nem tudom teljesíteni ezt a kérést. |
Minden tréningpélda JSONL formátumot követett, amely tartalmazott egy promptot (rendszerutasítást és felhasználói kérést) és egy ground_truth (igazságértéket) a reward_model mezőben, ami ellen a jutalomfüggvény pontozott. A változó megfogalmazás a formális, kötetlen és tömör stílusok között tovább növelte az adatkészlet robusztusságát. Míg a szintetikus adatok praktikus kiindulópontot biztosítanak, a meglévő ügynöki munkafolyamatokkal rendelkező szervezetek felhasználhatják a valós felhasználói promptokat és eszközhívásokat a termelési naplókból a még magasabb minőségű képzés elérése érdekében. Ez az adat-előkészítés kritikus lépés a komplex ügynökviselkedések prompt mérnöki munkájában.
{
"prompt": [
{"role": "system", "content": "Ön egy segítőkész asszisztens. Amikor eszközöket használ, válaszoljon a következővel: [...]"},
{"role": "user", "content": "Kérlek, add meg az időjárást San Franciscóban"}
],
"reward_model": {
"ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "Ön egy segítőkész asszisztens. Amikor eszközöket használ, válaszoljon a következővel: [...]"},
{"role": "user", "content": "Kérlek, add meg az időjárást"}
],
"reward_model": {
"ground_truth": "Az időjárási információk megadásához kérem, adja meg a helyszínt?"
}
}
Fine-Tuning Qwen 2.5 7B Instruct with SageMaker AI
The process of fine-tuning a model like Qwen 2.5 7B Instruct within Amazon SageMaker AI Studio is streamlined and intuitive. After ensuring the necessary prerequisites (AWS account, IAM role, SageMaker AI domain, S3 bucket) are met, users can navigate to the Models section in the SageMaker AI Studio.
From there, selecting Qwen 2.5 7B Instruct and choosing Customize with UI opens a dedicated configuration page. This interface allows for:
- Technique Selection: Explicitly choosing
Reinforcement Learning with Verifiable Rewards (RLVR)from the dropdown. - Data Input: Pointing to the prepared training data stored in an Amazon S3 bucket.
- Reward Function: Configuring the tiered scoring mechanism that defines how candidate responses are evaluated against the
ground_truth. - Hyperparameter Configuration: Adjusting parameters like batch size, though SageMaker AI often handles optimal settings automatically.
SageMaker AI supports a diverse range of model families, including Amazon Nova, GPT-OSS, Llama, Qwen, and DeepSeek, alongside various techniques like Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR, and Reinforcement Learning from AI Feedback (RLAIF). Integrated MLflow tracking provides visibility into training and validation metrics, simplifying performance monitoring and iteration. This ease of use dramatically accelerates the development lifecycle for developers building sophisticated GitHub-ügynöki-munkafolyamatok.
Evaluation and Deployment Success
The efficacy of our fine-tuned Qwen 2.5 7B Instruct model was rigorously evaluated on held-out data, including scenarios with entirely unseen tools—a crucial test for generalization. The results were compelling: the fine-tuned model achieved a remarkable 57% improvement in tool call reward compared to the base model. This significant leap in performance on scenarios it had not encountered during training underscores the power of RLVR in teaching models robust decision-making abilities for tool interaction.
This enhanced reliability directly translates into higher trust and confidence in deploying AI ügynökök into production environments. By minimizing instances of tool hallucinations, incorrect parameters, and inappropriate actions, businesses can leverage AI agents for more critical and sensitive tasks. With SageMaker AI handling the complexities of modell telepítés and infrastruktúra menedzsment, developers can seamlessly move from fine-tuning to production, realizing the full potential of their agentic AI solutions. This capability aligns with the broader vision of az ügynöki AI működtetése a valós hatás érdekében.
In summary, the combination of Amazon SageMaker AI's szerver nélküli modelltestreszabás and the robust learning capabilities of RLVR provides a powerful pathway to building highly reliable ügynöki eszközhívó systems. This innovative approach accelerates development, reduces operational burden, and ultimately delivers AI agents that perform with unprecedented accuracy and trustworthiness.
Gyakran ismételt kérdések
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Maradjon naprakész
Kapja meg a legfrissebb AI híreket e-mailben.
