SageMaker AI: サーバーレスモデルカスタマイズによるエージェントツールの呼び出しの加速

Agentic AIは、システムが専門ツールを通じて意思決定を行い、世界と対話できるようにすることで、自動化されたタスクの考え方に革命をもたらしました。しかし、本番環境におけるAIエージェントの真の有用性は、信頼性の高いエージェントツール呼び出しを実行する能力にかかっています。これは、エージェントがデータベースを照会し、複雑なワークフローをトリガーし、リアルタイムデータを取得し、ユーザーに代わって決定的に行動する方法です。残念ながら、広範な採用への一般的な障害は、ベースとなる大規模言語モデル（LLM）がツールを幻覚したり、誤ったパラメータを渡したり、明確化が必要なときにアクションを試みたりする傾向があることでした。このような失敗は信頼を損ない、本番環境への展開を著しく妨げます。
Amazon SageMaker AIは、これらの重要な課題を解決するために立ち上がっています。サーバーレスモデルカスタマイズを提供することで、開発者は一般的な運用上のオーバーヘッドなしで、堅牢なエージェントツール呼び出しのためにLLMをファインチューニングできます。このイノベーションの中心にあるのが検証可能な報酬による強化学習（RLVR）です。これは、モデルが独自の応答を生成して検証し、成功したツールインタラクションを優先することを学習させる手法です。この記事では、SageMaker AIがRLVRを利用してエージェントの信頼性を劇的に向上させる方法を掘り下げ、ファインチューニングされたQwen 2.5 7B Instructモデルで、未見のシナリオにおけるツール呼び出し報酬が57%向上したことを紹介します。

エージェントツール呼び出しの可能性と危険性

AIエージェントがツールを介して外部システムと対話するという概念は、高度なAIアプリケーションの基礎です。フライトを予約したり、データベースから文書を要約したり、自然言語のプロンプトに基づいてコードを実行したりできるエージェントを想像してみてください。この機能は、まさにエージェントツール呼び出しが実現するものです。しかし、信頼性の高いツールの使用への道は課題に満ちています。
ベースのLLMは、言語生成においては強力であるものの、正確なツール呼び出しに必要な微妙な理解に欠けることがよくあります。存在しないツールを推測したり、ユーザーの意図を誤解して不正確なパラメータ値を渡したり、重要な情報が不足していることに気づかなかったりする可能性があります。これらの誤りは、ユーザーエクスペリエンスを低下させ、エンタープライズレベルでの展開を危険なものにします。AIエージェントを効果的に運用しようとする組織にとって、予測可能で信頼できるツール実行を確保することは最も重要です。信頼できるエージェントは前例のないレベルの自動化と効率性を解き放つ一方で、信頼できないエージェントはコストのかかるエラーやユーザーの不満につながる可能性があるため、その重要性は非常に高いです。これが、SageMaker AIのようなプラットフォームで簡素化された、エージェントワークフローにおける堅牢なモデル最適化が不可欠である理由です。

サーバーレスモデルカスタマイズ：SageMaker AIの優位性

LLMのパフォーマンスを向上させる従来のMアプローチは、GPUの調達やメモリのオーケストレーションから、強化学習のための複雑な報酬インフラストラクチャやチェックポイントまで、かなりのインフラ管理を伴うことがよくありました。これらのタスクはかなりの運用上のオーバーヘッドを発生させ、貴重な開発リソースを、モデルの動作を洗練するという核心的な問題からそらしてしまいます。
Amazon SageMaker AIのサーバーレスモデルカスタマイズは、この負担を取り除きます。開発者は、基盤モデル（例：Qwen、Llama、GPT-OSS）を選択し、RLVRのようなファインチューニング手法を設定し、データにポイントし、報酬関数を定義できます。SageMaker AIは、コンピューティングリソースのスケーリングから、トレーニングフェーズとハイパーパラメータチューニングの管理まで、バックエンドプロセス全体を処理します。この抽象化により、チームはモデル改善の真の原動力であるデータセットの品質と報酬関数の設計に集中できます。企業にとって、このサーバーレスアプローチは、より速いイテレーションサイクル、コスト削減、高度なLLMカスタマイズへの参入障壁の低下につながります。これは、複雑なLLMのファインチューニングプロセスを簡素化することで、誰もがAIを拡張しようとしている人々にとって、状況を一変させるものです。

RLVRがエージェントツール呼び出しに優れる理由

AIエージェントにツールを確実に使用するように教える場合、すべてのファインチューニング手法が同じではありません。教師ありファインチューニング（SFT）は、モデルが示すべきすべての可能な動作（ツールの呼び出し、明確化の要求、拒否）に対して、綿密にラベル付けされた例を必要とします。SFTの課題は、これらの異なる動作間の意思決定プロセスを一般化することに苦労し、トレーニング中に見られたパターンではうまく機能するものの、新しいシナリオでは失敗することがよくあります。
検証可能な報酬による強化学習（RLVR）は、より動的で効果的なソリューションを提供します。SFTとは異なり、RLVRはフィードバックループに基づいて動作します。
1. 候補生成: 各プロンプトに対して、モデルは複数の（例：8つ）潜在的な応答を生成します。 2. 報酬関数の評価: 事前定義された報酬関数は、各候補を客観的に評価し、その品質、正確性、望ましい動作への準拠（例：正しいパラメータで正しいツールを呼び出したか？）を示します。 3. ポリシー更新: Group Relative Policy Optimization (GRPO) を使用して、モデルのポリシーが更新され、生成されたグループの平均を上回るスコアを獲得した応答が強化されます。このプロセスにより、モデルはより最適な動作へと反復的に導かれます。
この反復学習により、モデルは特定の操作を実行する方法だけでなく、いつ実行するかを理解できるようになります。ツール呼び出しが適切である状況、明確化が必要な状況、拒否が最善の行動である状況を区別する微妙なニュアンスを学習します。ツール呼び出しは、モデルが正しい関数を正しいパラメータで呼び出したかどうかという、自然に検証可能な目的を持つため、RLVRパラダイムに非常にうまく適合し、高い信頼性を必要とするAIエージェントにとって理想的です。この方法は、正確なアクションパターンを強化することで、プロンプトインジェクションに抵抗するエージェントの設計という課題に効果的に対処します。

RLVRのための高品質なトレーニングデータの準備

RLVRを含むあらゆるファインチューニングの成功は、トレーニングデータの品質と包括性にかかっています。エージェントツール呼び出しの場合、データセットはモデルに正しいAPI呼び出しだけでなく、必要なエージェント動作の全範囲を教える必要があります。
私たちのアプローチでは、AmazonのAI搭載IDEであるKiroを使用して、1,500個の合成トレーニング例を生成しました。これらの例は、get_weather_forecast、search_flights、translate_text、currency_convert、get_statisticsの5つの異なるツールスキーマをカバーしました。重要なことに、データはバランスの取れた学習を確保するために、3つの主要なエージェント動作にわたって配布されました。

動作	説明	割合	真実の例
実行	ユーザーが必要なパラメータをすべて提供した場合、モデルはツールを呼び出す必要があります。	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
明確化	ユーザーのリクエストに必要なパラメータが不足している場合、モデルは明確化を求める必要があります。	25%	`To provide you with the weather information, could you please specify the location?`
拒否	要求が有害であるか、範囲外である場合、モデルは丁寧に拒否する必要があります。	15%	`I'm sorry, I cannot fulfill that request.`

各トレーニング例はJSONL形式に従い、プロンプト（システム指示とユーザーリクエスト）と、報酬関数がスコアを付けるreward_modelフィールド内のground_truthを含んでいました。フォーマル、カジュアル、簡潔な表現を変化させることで、データセットの堅牢性がさらに向上しました。合成データは実用的な出発点となりますが、既存のエージェントワークフローを持つ組織は、本番ログからの実際のユーザープロンプトとツール呼び出しを活用して、さらに高品質なトレーニングを実現できます。このデータ準備は、複雑なエージェント動作のためのプロンプトエンジニアリングにおける重要なステップです。

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

SageMaker AIでのQwen 2.5 7B Instructのファインチューニング

Amazon SageMaker AI Studio内でQwen 2.5 7B Instructのようなモデルをファインチューニングするプロセスは、合理化されて直感的です。必要な前提条件（AWSアカウント、IAMロール、SageMaker AIドメイン、S3バケット）が満たされていることを確認した後、ユーザーはSageMaker AI Studioのモデルセクションに移動できます。
そこから、Qwen 2.5 7B Instructを選択し、UIでカスタマイズを選択すると、専用の設定ページが開きます。このインターフェースでは、次のことが可能です。
* 手法の選択: ドロップダウンから検証可能な報酬による強化学習（RLVR）を明示的に選択します。

データ入力: Amazon S3バケットに保存されている準備済みのトレーニングデータを指定します。
報酬関数: 候補応答がground_truthに対してどのように評価されるかを定義する階層型スコアリングメカニズムを設定します。
ハイパーパラメータ構成: バッチサイズなどのパラメータを調整します（ただし、SageMaker AIは最適な設定を自動的に処理することがよくあります）。
SageMaker AIは、Amazon Nova、GPT-OSS、Llama、Qwen、DeepSeekを含むさまざまなモデルファミリーと、教師ありファインチューニング（SFT）、直接選好最適化（DPO）、RLVR、AIフィードバックからの強化学習（RLAIF）などのさまざまな手法をサポートしています。統合されたMLflowトラッキングにより、トレーニングと検証のメトリクスが可視化され、パフォーマンスの監視と反復が簡素化されます。この使いやすさは、洗練されたgithub-agentic-workflowsを構築する開発者の開発ライフサイクルを劇的に加速します。

評価とデプロイの成功

ファインチューニングされたQwen 2.5 7B Instructモデルの有効性は、完全に未見のツールを含む、保持されたデータに対して厳密に評価されました。これは汎化のための重要なテストです。結果は説得力のあるものでした。ファインチューニングされたモデルは、ベースモデルと比較してツール呼び出し報酬が57%向上しました。トレーニング中に遭遇しなかったシナリオで性能が大幅に向上したことは、モデルにツールインタラクションのための堅牢な意思決定能力を教える上でのRLVRの力を強調しています。
この強化された信頼性は、AIエージェントを本番環境に展開する上での信頼と自信の向上に直結します。ツール幻覚、不正確なパラメータ、不適切なアクションの発生を最小限に抑えることで、企業はAIエージェントをより重要で機密性の高いタスクに活用できます。SageMaker AIがモデルのデプロイとインフラストラクチャ管理の複雑さを処理するため、開発者はファインチューニングから本番環境への移行をシームレスに行い、エージェントAIソリューションの可能性を最大限に引き出すことができます。この機能は、エージェントAIの運用化を現実世界に適用するというより広範なビジョンと一致しています。
要約すると、Amazon SageMaker AIのサーバーレスモデルカスタマイズとRLVRの堅牢な学習能力の組み合わせは、信頼性の高いエージェントツール呼び出しシステムを構築するための強力な道筋を提供します。この革新的なアプローチは、開発を加速し、運用上の負担を軽減し、最終的には前例のない精度と信頼性で動作するAIエージェントを実現します。

元の情報源

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

よくある質問

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: サーバーレスカスタマイズによるエージェントツールの呼び出しの加速