SageMaker AI: Az ügynöki eszközhívás felgyorsítása szerver nélküli modelltestreszabással

Az ügynöki AI forradalmasította az automatizált feladatokról való gondolkodásunkat, lehetővé téve a rendszerek számára, hogy döntéseket hozzanak és interakcióba lépjenek a világgal speciális eszközökön keresztül. Az AI ügynökök valódi hasznossága a termelésben azonban attól függ, hogy mennyire képesek megbízhatóan ügynöki eszközhívásokat végezni. Ez az, ahogyan az ügynökök adatbázisokat kérdeznek le, komplex munkafolyamatokat indítanak el, valós idejű adatokat hívnak le, és határozottan cselekednek a felhasználó nevében. Sajnos a széles körű elterjedés egyik gyakori akadálya az alap nagyméretű nyelvi modellek (LLM-ek) azon hajlama, hogy hallucináljanak nem létező eszközöket, hibás paramétereket adjanak át, vagy kísérletezzenek műveletekkel, amikor tisztázásra lenne szükség. Az ilyen hibák aláássák a bizalmat és jelentősen akadályozzák a termelési bevezetést.

Az Amazon SageMaker AI lépéseket tesz e kritikus kihívások megoldására. A szerver nélküli modelltestreszabás biztosításával a fejlesztők finomhangolhatják az LLM-eket a robusztus ügynöki eszközhíváshoz anélkül, hogy a tipikus operatív terhekkel járna. Ennek az innovációnak a központi eleme az Ellenőrizhető Jutalmakkal Rendelkező Megerősítő Tanulás (RLVR), egy technika, amely felvértezi a modelleket azzal, hogy saját válaszaikat generálják és validálják, megtanulva előnyben részesíteni a sikeres eszközinterakciókat. Ez a bejegyzés azt vizsgálja, hogyan javítja drámaian a SageMaker AI, az RLVR-t használva, az ügynök megbízhatóságát, bemutatva egy 57%-os javulást az eszközhívási jutalomban ismeretlen forgatókönyvek esetén egy finomhangolt Qwen 2.5 7B Instruct modellel.

Az ügynöki eszközhívás ígérete és veszélyei

Az AI ügynökök külső rendszerekkel való, eszközökön keresztüli interakciójának koncepciója az fejlett AI alkalmazások alapköve. Képzeljünk el egy ügynököt, amely képes repülőjegyeket foglalni, dokumentumokat összefoglalni egy adatbázisból, vagy akár kódot futtatni egy természetes nyelvi prompt alapján. Ezt a funkcionalitást teszi lehetővé pontosan az ügynöki eszközhívás. Mégis, a megbízható eszközhasználathoz vezető út tele van kihívásokkal.

Az alap LLM-ek, bár erőteljesek a nyelvi generálásban, gyakran hiányolják a pontos eszközinvokációhoz szükséges árnyalt megértést. Előfordulhat, hogy nem létező eszközt következtetnek ki, félreértelmezik a felhasználói szándékot, ami helytelen paraméterértékekhez vezet, vagy nem ismerik fel, ha kritikus információ hiányzik. Ezek a tévedések frusztráló felhasználói élményekhez vezetnek, és kockázatossá teszik a vállalati szintű bevezetést. Azoknak a szervezeteknek, amelyek hatékonyan szeretnék működtetni az AI ügynököket, kulcsfontosságú a kiszámítható és megbízható eszközvégrehajtás biztosítása. A tét nagy, mivel a megbízható ügynökök soha nem látott szinteket nyithatnak meg az automatizálásban és a hatékonyságban, míg a megbízhatatlanok költséges hibákhoz és felhasználói elégedetlenséghez vezethetnek. Ezért elengedhetetlen a robusztus modell optimalizálás az ügynöki munkafolyamatokhoz, amit az olyan platformok, mint a SageMaker AI, egyszerűbbé tesznek.

Szerver nélküli modelltestreszabás: A SageMaker AI előnye

Az LLM teljesítményének javítására szolgáló hagyományos megközelítés gyakran jelentős infrastruktúra-menedzsmentet foglal magában – a GPU beszerzéstől és a memória orchestrációtól a komplex jutalmazási infrastruktúráig és a megerősítő tanuláshoz szükséges ellenőrzőpontokig. Ezek a feladatok jelentős operatív terheket rónak, elterelve az értékes fejlesztői erőforrásokat a fő problémáról: a modell viselkedésének finomításáról.

Az Amazon SageMaker AI szerver nélküli modelltestreszabása megszünteti ezt a terhet. A fejlesztők kiválaszthatnak egy alapmodellt (pl. Qwen, Llama, GPT-OSS), konfigurálhatnak egy finomhangolási technikát, például az RLVR-t, megadhatják az adataikat, és meghatározhatnak egy jutalomfüggvényt. A SageMaker AI ezután kezeli a teljes backend folyamatot, a számítási erőforrások skálázásától a képzési fázisok és a hiperparaméter-hangolás kezeléséig. Ez az absztrakció lehetővé teszi a csapatok számára, hogy az adatkészlet minőségére és a jutalomfüggvény tervezésére összpontosítsanak, amelyek a modellfejlesztés igazi mozgatórugói. Vállalatok számára ez a szerver nélküli megközelítés gyorsabb iterációs ciklusokat, csökkentett költségeket és alacsonyabb belépési küszöböt jelent a fejlett LLM testreszabáshoz. Ez egy forradalmi változás azok számára, akik mindenki számára skálázható AI-t szeretnének, a komplex LLM-ek finomhangolásának egyszerűsítésével.

Miért kiemelkedő az RLVR az ügynöki eszközhíváshoz?

Amikor arról van szó, hogy egy AI ügynököt megbízhatóan megtanítsunk eszközöket használni, nem minden finomhangolási technika egyenlő. A felügyelt finomhangolás (SFT) gondosan címkézett példákat igényel minden olyan lehetséges viselkedéshez, amelyet egy modellnek mutatnia kell – eszköz hívása, tisztázás kérése vagy kérés elutasítása. Az SFT kihívása az, hogy nehezen tudja általánosítani a döntéshozatali folyamatot ezen különböző viselkedések között, gyakran jól teljesít a képzés során látott mintákon, de új forgatókönyvek esetén hibázik.

Az Ellenőrizhető Jutalmakkal Rendelkező Megerősítő Tanulás (RLVR) dinamikusabb és hatékonyabb megoldást kínál. Az SFT-től eltérően az RLVR egy visszacsatolási hurkon keresztül működik:

Jelölt Generálás: Minden promptra a modell több (pl. nyolc) potenciális választ generál.
Jutalomfüggvény Értékelése: Egy előre meghatározott jutalomfüggvény objektíven pontozza az egyes jelölteket, jelezve azok minőségét, helyességét és a kívánt viselkedéshez való illeszkedését (pl. a megfelelő eszközt hívta-e meg a megfelelő paraméterekkel?).
Irányelv Frissítése: A Group Relative Policy Optimization (GRPO) segítségével a modell irányelve frissül, hogy megerősítse azokat a válaszokat, amelyek a generált csoport átlaga feletti pontszámot kaptak. Ez a folyamat iteratívan vezeti a modellt az optimálisabb viselkedés felé.

Ez az iteratív tanulás lehetővé teszi a modell számára, hogy ne csak azt értse meg, hogyan kell egy specifikus műveletet végrehajtani, hanem azt is, mikor kell azt végrehajtani. Megtanulja az árnyalatokat a helyzetek megkülönböztetésében, ahol egy eszközhívás megfelelő, tisztázásra van szükség, vagy az elutasítás a legjobb cselekvési mód. Mivel az eszközhívásnak természetesen ellenőrizhető célja van – hogy a modell a megfelelő függvényt hívta-e meg a megfelelő paraméterekkel –, kivételesen jól illeszkedik az RLVR paradigmához, így ideális a nagy megbízhatóságot igénylő AI ügynökök számára. Ez a módszer hatékonyan kezeli a prompt injekcióval szembeni ügynökök tervezésének kihívását a pontos cselekvési minták megerősítésével.

Kiváló minőségű tréningadatok előkészítése RLVR-hez

Bármely finomhangolási erőfeszítés, különösen az RLVR esetében, a tréningadatok minőségén és teljességén múlik. Az ügynöki eszközhíváshoz az adatkészletnek nemcsak a helyes API-hívásokat kell megtanítania a modellnek; magában kell foglalnia a szükséges ügynökviselkedések teljes spektrumát.

Megközelítésünk 1 500 szintetikus tréningpélda generálását foglalta magában az Amazon AI-alapú IDE-jével, a Kiro-val. Ezek a példák öt különböző eszközsémát fedtek le: get_weather_forecast, search_flights, translate_text, currency_convert, és get_statistics. Kulcsfontosságú, hogy az adatok három elsődleges ügynökviselkedés között oszlottak meg a kiegyensúlyozott tanulás biztosítása érdekében:

Viselkedés	Leírás	Százalék	Igazságérték Példa
Végrehajtás	A felhasználó minden szükséges paramétert megad, a modellnek eszközt kell hívnia.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Tisztázás	A felhasználó kéréséből hiányoznak a szükséges paraméterek, a modellnek tisztázást kell kérnie.	25%	`Az időjárási információk megadásához kérem, adja meg a helyszínt.`
Elutasítás	A kérés káros vagy hatókörön kívüli, a modellnek udvariasan el kell utasítania.	15%	`Sajnálom, nem tudom teljesíteni ezt a kérést.`

Minden tréningpélda JSONL formátumot követett, amely tartalmazott egy promptot (rendszerutasítást és felhasználói kérést) és egy ground_truth (igazságértéket) a reward_model mezőben, ami ellen a jutalomfüggvény pontozott. A változó megfogalmazás a formális, kötetlen és tömör stílusok között tovább növelte az adatkészlet robusztusságát. Míg a szintetikus adatok praktikus kiindulópontot biztosítanak, a meglévő ügynöki munkafolyamatokkal rendelkező szervezetek felhasználhatják a valós felhasználói promptokat és eszközhívásokat a termelési naplókból a még magasabb minőségű képzés elérése érdekében. Ez az adat-előkészítés kritikus lépés a komplex ügynökviselkedések prompt mérnöki munkájában.

{
  "prompt": [
    {"role": "system", "content": "Ön egy segítőkész asszisztens. Amikor eszközöket használ, válaszoljon a következővel: [...]"},
    {"role": "user", "content": "Kérlek, add meg az időjárást San Franciscóban"}
  ],
  "reward_model": {
    "ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "Ön egy segítőkész asszisztens. Amikor eszközöket használ, válaszoljon a következővel: [...]"},
    {"role": "user", "content": "Kérlek, add meg az időjárást"}
  ],
  "reward_model": {
    "ground_truth": "Az időjárási információk megadásához kérem, adja meg a helyszínt?"
  }
}

Fine-Tuning Qwen 2.5 7B Instruct with SageMaker AI

The process of fine-tuning a model like Qwen 2.5 7B Instruct within Amazon SageMaker AI Studio is streamlined and intuitive. After ensuring the necessary prerequisites (AWS account, IAM role, SageMaker AI domain, S3 bucket) are met, users can navigate to the Models section in the SageMaker AI Studio.

From there, selecting Qwen 2.5 7B Instruct and choosing Customize with UI opens a dedicated configuration page. This interface allows for:

Technique Selection: Explicitly choosing Reinforcement Learning with Verifiable Rewards (RLVR) from the dropdown.
Data Input: Pointing to the prepared training data stored in an Amazon S3 bucket.
Reward Function: Configuring the tiered scoring mechanism that defines how candidate responses are evaluated against the ground_truth.
Hyperparameter Configuration: Adjusting parameters like batch size, though SageMaker AI often handles optimal settings automatically.

SageMaker AI supports a diverse range of model families, including Amazon Nova, GPT-OSS, Llama, Qwen, and DeepSeek, alongside various techniques like Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR, and Reinforcement Learning from AI Feedback (RLAIF). Integrated MLflow tracking provides visibility into training and validation metrics, simplifying performance monitoring and iteration. This ease of use dramatically accelerates the development lifecycle for developers building sophisticated GitHub-ügynöki-munkafolyamatok.

Evaluation and Deployment Success

The efficacy of our fine-tuned Qwen 2.5 7B Instruct model was rigorously evaluated on held-out data, including scenarios with entirely unseen tools—a crucial test for generalization. The results were compelling: the fine-tuned model achieved a remarkable 57% improvement in tool call reward compared to the base model. This significant leap in performance on scenarios it had not encountered during training underscores the power of RLVR in teaching models robust decision-making abilities for tool interaction.

This enhanced reliability directly translates into higher trust and confidence in deploying AI ügynökök into production environments. By minimizing instances of tool hallucinations, incorrect parameters, and inappropriate actions, businesses can leverage AI agents for more critical and sensitive tasks. With SageMaker AI handling the complexities of modell telepítés and infrastruktúra menedzsment, developers can seamlessly move from fine-tuning to production, realizing the full potential of their agentic AI solutions. This capability aligns with the broader vision of az ügynöki AI működtetése a valós hatás érdekében.

In summary, the combination of Amazon SageMaker AI's szerver nélküli modelltestreszabás and the robust learning capabilities of RLVR provides a powerful pathway to building highly reliable ügynöki eszközhívó systems. This innovative approach accelerates development, reduces operational burden, and ultimately delivers AI agents that perform with unprecedented accuracy and trustworthiness.

Eredeti forrás

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

Gyakran ismételt kérdések

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

Maradjon naprakész

Kapja meg a legfrissebb AI híreket e-mailben.

Megosztás