SageMaker AI: Забрзување на агентското повикување алатки со прилагодување без сервер

Агентската вештачка интелигенција ја револуционизираше нашата претстава за автоматизирани задачи, овозможувајќи им на системите да донесуваат одлуки и да комуницираат со светот преку специјализирани алатки. Сепак, вистинската корисност на AI агентите во производство зависи од нивната способност сигурно да извршуваат агентско повикување алатки. Ова е начинот на кој агентите пребаруваат бази на податоци, активираат сложени работни текови, преземаат податоци во реално време и дејствуваат одлучно во име на корисникот. За жал, вообичаена пречка за широка примена е тенденцијата на основните големи јазични модели (LLM) да халуцинираат алатки, да предаваат неточни параметри или да се обидуваат да извршат дејства кога е потребно појаснување. Ваквите неуспеси ја нарушуваат довербата и значително го попречуваат распоредувањето во производство.

Amazon SageMaker AI презема чекори за решавање на овие критични предизвици. Со понудата на прилагодување на моделот без сервер, развивачите можат фино да ги подесат LLM-овите за робусно агентско повикување алатки без типичните оперативни трошоци. Централно за оваа иновација е Учењето со засилување со верификувани награди (RLVR), техника која им овозможува на моделите да генерираат и валидираат свои одговори, учејќи да фаворизираат успешни интеракции со алатки. Овој пост истражува како SageMaker AI, користејќи RLVR, драматично ја подобрува сигурноста на агентите, покажувајќи подобрување од 57% во наградата за повикување алатка во невидени сценарија со фино подесен модел Qwen 2.5 7B Instruct.

Ветувањето и опасностите од агентското повикување алатки

Концептот на AI агенти кои комуницираат со надворешни системи преку алатки е камен-темелник на напредните AI апликации. Замислете агент кој може да резервира летови, да сумира документи од база на податоци или дури да изврши код врз основа на промпт на природен јазик. Оваа функционалност е токму она што го овозможува агентското повикување алатки. Сепак, патот до сигурна употреба на алатки е полн со предизвици.

Основните LLM, иако моќни во генерирањето јазик, честопати немаат нијансирано разбирање потребно за прецизно повикување алатки. Тие може да заклучат алатка која не постои, погрешно да ја толкуваат намерата на корисникот што води до неточни вредности на параметрите или да не препознаат кога недостасуваат критични информации. Овие грешки доведуваат до фрустрирачки кориснички искуства и го прават распоредувањето на претпријатиско ниво ризично. За организациите кои сакаат ефективно да ги операционализираат AI агентите, обезбедувањето предвидливо и доверливо извршување на алатките е најважно. Влоговите се високи, бидејќи сигурните агенти можат да отклучат невидени нивоа на автоматизација и ефикасност, додека несигурните можат да доведат до скапи грешки и незадоволство на корисниците. Затоа е од суштинско значење робусна оптимизација на моделот за агентски работни текови, задача која е поедноставена со платформи како SageMaker AI.

Прилагодување на модел без сервер: Предноста на SageMaker AI

Традиционалниот пристап за подобрување на перформансите на LLM често вклучува значително управување со инфраструктурата – од набавка на GPU и оркестрација на меморија до сложена инфраструктура за награди и точки за проверка за учење со засилување. Овие задачи воведуваат значителни оперативни трошоци, пренасочувајќи ги вредните ресурси на развивачите од фокусирање на основниот проблем: рафинирање на однесувањето на моделот.

Прилагодувањето на моделот без сервер на Amazon SageMaker AI го отстранува овој товар. Развивачите можат да изберат основен модел (на пр., Qwen, Llama, GPT-OSS), да конфигурираат техника за фино подесување како RLVR, да ги посочат своите податоци и да дефинираат функција за награда. SageMaker AI потоа управува со целиот заден процес, од скалирање на компјутерските ресурси до управување со фазите на обука и подесување на хиперпараметрите. Оваа апстракција им овозможува на тимовите да се концентрираат на квалитетот на податочното множество и дизајнот на функцијата за награда, кои се вистинските двигатели за подобрување на моделот. За претпријатијата, овој пристап без сервер значи побрзи циклуси на итерација, намалени трошоци и помал влезен праг за напредно прилагодување на LLM. Тоа е промена на играта за оние кои сакаат да ја скалираат вештачката интелигенција за сите со поедноставување на сложените процеси на фино подесување на LLM.

Зошто RLVR е одличен за агентско повикување алатки

Кога станува збор за учење на AI агент сигурно да користи алатки, не сите техники за фино подесување се еднакви. Надгледуваното фино подесување (SFT) бара прецизно означени примери за секое можно однесување што моделот треба да го покаже – повикување алатка, барање појаснување или одбивање барање. Предизвикот со SFT е неговата борба да го генерализира процесот на донесување одлуки помеѓу овие различни однесувања, честопати добро функционирајќи на шаблони видени за време на обуката, но потфрлајќи во нови сценарија.

Учење со засилување со верификувани награди (RLVR) нуди подинамично и поефективно решение. За разлика од SFT, RLVR работи на повратна врска:

Генерирање кандидати: За секој промпт, моделот генерира повеќе (на пр., осум) потенцијални одговори.
Евалуација на функцијата за награда: Предефинирана функција за награда објективно го оценува секој кандидат, укажувајќи на неговиот квалитет, исправност и усогласеност со посакуваното однесување (на пр., дали ја повика вистинската алатка со точните параметри?).
Ажурирање на политиката: Користејќи Оптимизација на релативна политика на група (GRPO), политиката на моделот се ажурира за да ги засили одговорите кои добиле оценка над просекот на генерираната група. Овој процес итеративно го води моделот кон пооптимално однесување.

Ова итеративно учење му овозможува на моделот да разбере не само како да изврши одредено дејство, туку и кога да го изврши. Тој ги учи нијансите на разликување помеѓу ситуации кога е соодветно повикување алатка, кога е потребно појаснување или кога одбивањето е најдобар начин на дејствување. Бидејќи повикувањето алатка има природно проверлива цел – дали моделот ја повикал вистинската функција со вистинските параметри – тоа исклучително добро се вклопува во парадигмата RLVR, што го прави идеален за AI агенти кои бараат висока сигурност. Овој метод ефективно го решава предизвикот за дизајнирање агенти да се спротивстават на инјектирање промпт со зајакнување на прецизни шеми на дејствување.

Подготовка на висококвалитетни податоци за обука за RLVR

Успехот на секој напор за фино подесување, особено со RLVR, зависи од квалитетот и сеопфатноста на податоците за обука. За агентско повикување алатки, множеството податоци мора да го научи моделот повеќе од само коректни повикувања на API; треба да го опфати целиот спектар на потребни однесувања на агентот.

Нашиот пристап вклучуваше генерирање 1.500 синтетички примери за обука користејќи Kiro, AI-управуваното IDE на Amazon. Овие примери опфатија пет различни шеми на алатки: get_weather_forecast, search_flights, translate_text, currency_convert, и get_statistics. Клучно, податоците беа дистрибуирани низ три примарни однесувања на агентот за да се обезбеди балансирано учење:

Однесување	Опис	Процент	Пример за 'ground_truth'
Изврши	Корисникот ги обезбедува сите потребни параметри, моделот треба да повика алатка.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Појасни	Барањето на корисникот е без потребни параметри, моделот треба да побара појаснување.	25%	`To provide you with the weather information, could you please specify the location?`
Одбиј	Барањето е штетно или надвор од опсегот, моделот треба учтиво да одбие.	15%	`I'm sorry, I cannot fulfill that request.`

Секој пример за обука следеше JSONL формат, вклучувајќи промпт (системска порака и корисничка порака) и ground_truth во полето reward_model што функцијата за награда го оценува. Различните формулации помеѓу формалниот, секојдневниот и краткиот стил дополнително ја подобрија робусноста на множеството податоци. Додека синтетичките податоци обезбедуваат практична почетна точка, организациите со постоечки агентски работни текови можат да користат вистински кориснички промпти и повици на алатки од производните логови за да постигнат уште повисок квалитет на обука. Оваа подготовка на податоци е критичен чекор во инженерството на промпт за сложени однесувања на агентите.

{
  "prompt": [
    {"role": "system", "content": "Вие сте корисен асистент. Кога користите алатки, одговорете со: [...]"},
    {"role": "user", "content": "Добиј временска прогноза за Сан Франциско"}
  ],
  "reward_model": {
    "ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "Вие сте корисен асистент. Кога користите алатки, одговорете со: [...]"},
    {"role": "user", "content": "Добиј го времето"}
  ],
  "reward_model": {
    "ground_truth": "За да ви ги дадам временските информации, дали би можеле да ја наведете локацијата?"
  }
}

Фино подесување на Qwen 2.5 7B Instruct со SageMaker AI

Процесот на фино подесување на модел како Qwen 2.5 7B Instruct во Amazon SageMaker AI Studio е рационализиран и интуитивен. Откако ќе се обезбедат потребните предуслови (AWS сметка, IAM улога, SageMaker AI домен, S3 корпа), корисниците можат да одат на делот Модели во SageMaker AI Studio.

Оттаму, со избирање на Qwen 2.5 7B Instruct и избирање Прилагоди со UI се отвора посветена страница за конфигурација. Овој интерфејс овозможува:

Избор на техника: Експлицитно избирање на Учење со засилување со верификувани награди (RLVR) од паѓачкото мени.
Внес на податоци: Укажување на подготвените податоци за обука зачувани во Amazon S3 корпа.
Функција за награда: Конфигурирање на скалестиот механизам за оценување што дефинира како се оценуваат кандидатските одговори наспроти ground_truth.
Конфигурација на хиперпараметри: Прилагодување на параметри како големина на серијата, иако SageMaker AI честопати автоматски ги управува оптималните поставки.

SageMaker AI поддржува разновиден опсег на фамилии на модели, вклучувајќи Amazon Nova, GPT-OSS, Llama, Qwen, и DeepSeek, заедно со различни техники како Надгледувано фино подесување (SFT), Оптимизација на директна преференца (DPO), RLVR и Учење со засилување од повратни информации од AI (RLAIF). Интегрираното следење на MLflow обезбедува видливост на метриките за обука и валидација, поедноставувајќи го следењето на перформансите и итерацијата. Оваа леснотија на користење драматично го забрзува животниот циклус на развој за развивачите кои градат софистицирани github-agentic-workflows.

Евалуација и успех на распоредување

Ефикасноста на нашиот фино подесен модел Qwen 2.5 7B Instruct беше ригорозно евалуирана врз задржани податоци, вклучувајќи сценарија со целосно невидени алатки — клучен тест за генерализација. Резултатите беа убедливи: фино подесениот модел постигна извонредно 57% подобрување во наградата за повикување алатка во споредба со основниот модел. Овој значителен скок во перформансите во сценарија кои не ги сретнал за време на обуката ја нагласува моќта на RLVR во учењето на моделите за робусни способности за донесување одлуки за интеракција со алатки.

Оваа подобрена сигурност директно се претвора во поголема доверба и сигурност при распоредување на AI агенти во производни средини. Со минимизирање на случаите на халуцинации на алатки, неточни параметри и несоодветни дејства, бизнисите можат да ги искористат AI агентите за покритични и почувствителни задачи. Со SageMaker AI кој ги управува сложеноста на распоредувањето на моделот и управувањето со инфраструктурата, развивачите можат беспрекорно да преминат од фино подесување до производство, реализирајќи го целосниот потенцијал на нивните агентски AI решенија. Оваа способност е во согласност со пошироката визија за операционализирање на агентската вештачка интелигенција за влијание во реалниот свет.

Сумирано, комбинацијата на прилагодувањето на моделот без сервер на Amazon SageMaker AI и робусните способности за учење на RLVR обезбедува моќен пат за градење високосигурни системи за агентско повикување алатки. Овој иновативен пристап го забрзува развојот, го намалува оперативниот товар и на крајот испорачува AI агенти кои работат со невидена точност и доверливост.

Оригинален извор

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

Често поставувани прашања

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

Бидете информирани

Добивајте ги најновите AI вести на е-пошта.

Сподели