SageMaker AI: Ускоряване на агентно извикване на инструменти със сървърна персонализация на модела

Агентният AI революционизира начина, по който мислим за автоматизираните задачи, позволявайки на системите да вземат решения и да взаимодействат със света чрез специализирани инструменти. Въпреки това, истинската полезност на AI агентите в производството зависи от тяхната способност надеждно да извършват агентно извикване на инструменти. Така агентите извличат данни от бази данни, задействат сложни работни процеси, извличат данни в реално време и действат решително от името на потребителя. За съжаление, често срещана пречка за широкото приемане е тенденцията на основните големи езикови модели (LLM) да халюцинират инструменти, да предават неправилни параметри или да опитват действия, когато е необходимо изясняване. Такива неуспехи подкопават доверието и значително възпрепятстват внедряването в производството.

Amazon SageMaker AI се заема да реши тези критични предизвикателства. Предлагайки сървърна персонализация на модела, разработчиците могат фино да настройват LLM за надеждно агентно извикване на инструменти без типичните оперативни разходи. В центъра на тази иновация е Обучението с подсилване с проверими награди (RLVR), техника, която дава възможност на моделите да генерират и валидират собствените си отговори, научавайки се да предпочитат успешни взаимодействия с инструменти. Тази публикация разглежда как SageMaker AI, използвайки RLVR, драматично подобрява надеждността на агентите, показвайки 57% подобрение в наградата за извикване на инструменти при невиждани сценарии с фино настроен модел Qwen 2.5 7B Instruct.

Обещанието и опасностите на агентното извикване на инструменти

Концепцията за AI агенти, взаимодействащи с външни системи чрез инструменти, е крайъгълен камък на напредналите AI приложения. Представете си агент, който може да резервира полети, да обобщава документи от база данни или дори да изпълнява код въз основа на промпт на естествен език. Тази функционалност е точно това, което агентното извикване на инструменти позволява. И все пак, пътят към надеждното използване на инструменти е осеян с предизвикателства.

Основните LLM, макар и мощни в генерирането на език, често нямат нюансираното разбиране, необходимо за прецизно извикване на инструменти. Те могат да предполагат инструмент, който не съществува, да тълкуват погрешно намерението на потребителя, което води до неправилни стойности на параметрите, или да не разпознаят кога липсва критична информация. Тези грешки водят до разочароващи потребителски изживявания и правят внедряването на корпоративно ниво рисковано. За организации, които искат ефективно да въведат в експлоатация AI агенти, осигуряването на предсказуемо и надеждно изпълнение на инструментите е от първостепенно значение. Залозите са високи, тъй като надеждните агенти могат да отключат безпрецедентни нива на автоматизация и ефективност, докато ненадеждните могат да доведат до скъпоструващи грешки и недоволство на потребителите. Ето защо здравата оптимизация на модела за агентни работни процеси е от съществено значение, задача, улеснена с платформи като SageMaker AI.

Сървърна персонализация на модела: Предимството на SageMaker AI

Традиционният подход за подобряване на производителността на LLM често включва значително управление на инфраструктурата – от осигуряване на GPU и оркестрация на паметта до сложна инфраструктура за награди и контролни точки за обучение с подсилване. Тези задачи въвеждат значителни оперативни разходи, отклонявайки ценни ресурси на разработчиците от фокусирането върху основния проблем: усъвършенстване на поведението на модела.

Сървърната персонализация на модела на Amazon SageMaker AI премахва това бреме. Разработчиците могат да изберат основен модел (напр. Qwen, Llama, GPT-OSS), да конфигурират техника за фино настройване като RLVR, да посочат своите данни и да дефинират функция за награда. SageMaker AI след това управлява целия бек-енд процес, от мащабиране на изчислителните ресурси до управление на фазите на обучение и настройка на хиперпараметри. Тази абстракция позволява на екипите да се концентрират върху качеството на набора от данни и дизайна на функцията за награда, които са истинските двигатели за подобряване на модела. За предприятията този сървърен подход води до по-бързи цикли на итерация, намалени разходи и по-нисък праг за навлизане за напреднала персонализация на LLM. Това е промяна на играта за тези, които искат да мащабират AI за всички, като опростяват сложните процеси на фино настройване на LLM.

Защо RLVR е отличен за агентно извикване на инструменти

Когато става въпрос за обучение на AI агент надеждно да използва инструменти, не всички техники за фино настройване са еднакви. Надзорното фино настройване (SFT) изисква щателно етикетирани примери за всяко възможно поведение, което моделът трябва да проявява – извикване на инструмент, искане на разяснение или отказ от заявка. Предизвикателството при SFT е неговата борба да обобщи процеса на вземане на решения между тези различни поведения, често се справя добре с модели, видени по време на обучение, но се проваля при нови сценарии.

Обучението с подсилване с проверими награди (RLVR) предлага по-динамично и ефективно решение. За разлика от SFT, RLVR работи на принципа на обратна връзка:

Генериране на кандидати: За всеки промпт моделът генерира множество (напр. осем) потенциални отговора.
Оценка на функцията за награда: Предварително дефинирана функция за награда обективно оценява всеки кандидат, показвайки неговото качество, коректност и съответствие с желаното поведение (напр. извикал ли е правилния инструмент с правилните параметри?).
Актуализация на политиката: Използвайки Group Relative Policy Optimization (GRPO), политиката на модела се актуализира, за да подсили отговори, които са получили оценка над средната за генерираната група. Този процес итеративно насочва модела към по-оптимално поведение.

Това итеративно обучение позволява на модела да разбере не само как да извърши конкретно действие, но и кога да го извърши. Той научава нюансите на разграничаване между ситуации, в които извикване на инструмент е подходящо, е необходимо изясняване или отказ е най-добрият курс на действие. Тъй като извикването на инструменти има естествено проверима цел – дали моделът е извикал правилната функция с правилните параметри – то се вписва изключително добре в парадигмата на RLVR, което го прави идеален за AI агенти, изискващи висока надеждност. Този метод ефективно се справя с предизвикателството да проектираме агенти да устоят на промпт инжекция, като подсилва прецизни модели на действие.

Подготовка на висококачествени данни за обучение за RLVR

Успехът на всяко усилие за фино настройване, особено с RLVR, зависи от качеството и изчерпателността на данните за обучение. За агентно извикване на инструменти, наборът от данни трябва да научи модела повече от просто правилни извиквания на API; той трябва да обхване целия спектър от необходими поведения на агента.

Нашият подход включва генерирането на 1500 синтетични примера за обучение с помощта на Kiro, AI-захранваното IDE на Amazon. Тези примери покриват пет различни схеми на инструменти: get_weather_forecast, search_flights, translate_text, currency_convert и get_statistics. От решаващо значение е, че данните са разпределени в три основни поведения на агента, за да се осигури балансирано обучение:

Поведение	Описание	Процент	Пример за Ground Truth
Изпълнение	Потребителят предоставя всички необходими параметри, моделът трябва да извика инструмент.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Изясняване	В заявката на потребителя липсват необходими параметри, моделът трябва да поиска разяснение.	25%	`За да ви предоставя информация за времето, можете ли да посочите местоположението?`
Отказ	Заявката е вредна или извън обхвата, моделът трябва учтиво да откаже.	15%	`Съжалявам, не мога да изпълня тази заявка.`

Всеки пример за обучение следва формат JSONL, включващ промпт (системни инструкции и потребителска заявка) и ground_truth в полето reward_model, спрямо което функцията за награда оценява. Различните формулировки – официални, неформални и кратки – допълнително подобряват надеждността на набора от данни. Докато синтетичните данни осигуряват практична отправна точка, организациите със съществуващи агентни работни процеси могат да използват реални потребителски промптове и извиквания на инструменти от производствени логове, за да постигнат още по-висококачествено обучение. Тази подготовка на данни е критична стъпка в промпт инженеринга за сложни поведения на агента.

{
  "prompt": [
    {"role": "system", "content": "Вие сте полезен асистент. Когато използвате инструменти, отговорете с: [...]"},
    {"role": "user", "content": "Времето за Сан Франциско"}
  ],
  "reward_model": {
    "ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "Вие сте полезен асистент. Когато използвате инструменти, отговорете с: [...]"},
    {"role": "user", "content": "Какво е времето"}
  ],
  "reward_model": {
    "ground_truth": "За да ви предоставя информация за времето, можете ли да посочите местоположението?"
  }
}

Фино настройване на Qwen 2.5 7B Instruct с SageMaker AI

Процесът на фино настройване на модел като Qwen 2.5 7B Instruct в Amazon SageMaker AI Studio е рационализиран и интуитивен. След като се уверите, че са изпълнени необходимите предпоставки (AWS акаунт, IAM роля, SageMaker AI домейн, S3 кошче), потребителите могат да отидат в секцията Models в SageMaker AI Studio.

Оттам, избирането на Qwen 2.5 7B Instruct и изборът на Customize with UI отваря специална страница за конфигурация. Този интерфейс позволява:

Избор на техника: Изрично избиране на Обучение с подсилване с проверими награди (RLVR) от падащото меню.
Вход на данни: Посочване на подготвените данни за обучение, съхранявани в Amazon S3 кошче.
Функция за награда: Конфигуриране на многостепенния механизъм за оценяване, който дефинира как се оценяват кандидат-отговорите спрямо ground_truth.
Конфигурация на хиперпараметри: Настройка на параметри като размер на партидата, въпреки че SageMaker AI често автоматично обработва оптималните настройки.

SageMaker AI поддържа разнообразен набор от моделни семейства, включително Amazon Nova, GPT-OSS, Llama, Qwen и DeepSeek, наред с различни техники като Надзорно фино настройване (SFT), Оптимизация на директни предпочитания (DPO), RLVR и Обучение с подсилване от обратна връзка на AI (RLAIF). Интегрираното MLflow проследяване осигурява видимост на метриките за обучение и валидиране, опростявайки наблюдението на производителността и итерациите. Тази лекота на използване значително ускорява жизнения цикъл на разработка за разработчиците, изграждащи сложни github-agentic-workflows.

Оценка и успех при внедряване

Ефикасността на нашия фино настроен модел Qwen 2.5 7B Instruct беше строго оценена върху отделни данни, включително сценарии с изцяло невиждани инструменти – решаващ тест за обобщаване. Резултатите бяха убедителни: фино настроеният модел постигна забележително 57% подобрение в наградата за извикване на инструменти в сравнение с базовия модел. Този значителен скок в производителността при сценарии, които не е срещал по време на обучението, подчертава силата на RLVR при обучението на модели за надеждни способности за вземане на решения за взаимодействие с инструменти.

Тази подобрена надеждност директно води до по-високо доверие и увереност при внедряването на AI агенти в производствена среда. Чрез минимизиране на случаите на халюцинации на инструменти, неправилни параметри и неподходящи действия, предприятията могат да използват AI агенти за по-критични и чувствителни задачи. С SageMaker AI, който поема сложността на разгръщането на модела и управлението на инфраструктурата, разработчиците могат безпроблемно да преминат от фино настройване към производство, реализирайки пълния потенциал на своите агентни AI решения. Тази възможност съответства на по-широката визия за операционализиране на агентен AI за въздействие в реалния свят.

В обобщение, комбинацията от сървърна персонализация на модела на Amazon SageMaker AI и силните възможности за обучение на RLVR предоставя мощен път за изграждане на високо надеждни системи за агентно извикване на инструменти. Този иновативен подход ускорява разработката, намалява оперативното натоварване и в крайна сметка предоставя AI агенти, които работят с безпрецедентна точност и надеждност.

Оригинален източник

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

Често задавани въпроси

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

Бъдете информирани

Получавайте последните AI новини по имейл.

Сподели