SageMaker AI: Przyspieszanie wywoływania narzędzi agentowych dzięki dostosowaniu modelu bezserwerowego

AI agentowa zrewolucjonizowała nasze myślenie o zautomatyzowanych zadaniach, umożliwiając systemom podejmowanie decyzji i interakcję ze światem za pomocą wyspecjalizowanych narzędzi. Jednak prawdziwa użyteczność agentów AI w produkcji zależy od ich zdolności do niezawodnego wykonywania wywoływania narzędzi agentowych. To właśnie w ten sposób agenci odpytują bazy danych, uruchamiają złożone przepływy pracy, pobierają dane w czasie rzeczywistym i działają zdecydowanie w imieniu użytkownika. Niestety, częstą przeszkodą w szerokim przyjęciu była tendencja podstawowych dużych modeli językowych (LLM) do halucynowania narzędzi, przekazywania nieprawidłowych parametrów lub prób wykonywania działań, gdy potrzebne jest wyjaśnienie. Takie błędy podważają zaufanie i znacznie utrudniają wdrożenie produkcyjne.

Amazon SageMaker AI wychodzi naprzeciw tym krytycznym wyzwaniom. Oferując bezserwerowe dostosowanie modelu, programiści mogą dostrajać LLM do solidnego wywoływania narzędzi agentowych bez typowego obciążenia operacyjnego. Centralnym elementem tej innowacji jest Uczenie Wzmacniane z Weryfikowalnymi Nagrodami (RLVR), technika, która umożliwia modelom generowanie i walidowanie własnych odpowiedzi, ucząc się preferować udane interakcje z narzędziami. Ten post szczegółowo omawia, w jaki sposób SageMaker AI, wykorzystując RLVR, radykalnie poprawia niezawodność agentów, prezentując 57% wzrost nagrody za wywołanie narzędzia w nieznanych scenariuszach z dostrojonym modelem Qwen 2.5 7B Instruct.

Obietnice i pułapki wywoływania narzędzi agentowych

Koncepcja agentów AI wchodzących w interakcje z systemami zewnętrznymi za pośrednictwem narzędzi jest kamieniem węgielnym zaawansowanych aplikacji AI. Wyobraź sobie agenta, który może rezerwować loty, podsumowywać dokumenty z bazy danych, a nawet wykonywać kod na podstawie promptu w języku naturalnym. Ta funkcjonalność jest dokładnie tym, co umożliwia wywoływanie narzędzi agentowych. Jednak droga do niezawodnego użycia narzędzi jest pełna wyzwań.

Podstawowe LLM-y, choć potężne w generowaniu języka, często brakuje im subtelnego zrozumienia wymaganego do precyzyjnego wywołania narzędzia. Mogą one wywnioskować narzędzie, które nie istnieje, błędnie zinterpretować intencje użytkownika, co prowadzi do nieprawidłowych wartości parametrów, lub nie rozpoznać, kiedy brakuje krytycznych informacji. Te błędy prowadzą do frustrujących doświadczeń użytkowników i sprawiają, że wdrożenie na poziomie przedsiębiorstwa jest ryzykowne. Dla organizacji dążących do efektywnego operacjonalizowania agentów AI, zapewnienie przewidywalnego i godnego zaufania wykonania narzędzi jest najważniejsze. Stawka jest wysoka, ponieważ niezawodni agenci mogą odblokować bezprecedensowe poziomy automatyzacji i wydajności, podczas gdy zawodni mogą prowadzić do kosztownych błędów i niezadowolenia użytkowników. Dlatego solidna optymalizacja modelu dla przepływów pracy agentowych jest niezbędna, zadanie uproszczone dzięki platformom takim jak SageMaker AI.

Bezserwerowe dostosowanie modelu: przewaga SageMaker AI

Tradycyjne podejście do poprawy wydajności LLM często wiąże się ze znacznym zarządzaniem infrastrukturą – od pozyskiwania GPU i orkiestracji pamięci po złożoną infrastrukturę nagród i punktów kontrolnych dla uczenia wzmacnianego. Te zadania wprowadzają znaczne obciążenie operacyjne, odciągając cenne zasoby programistów od skupiania się na kluczowym problemie: udoskonalaniu zachowania modelu.

Funkcja bezserwerowego dostosowania modelu w Amazon SageMaker AI eliminuje to obciążenie. Programiści mogą wybrać model bazowy (np. Qwen, Llama, GPT-OSS), skonfigurować technikę dostrajania, taką jak RLVR, wskazać swoje dane i zdefiniować funkcję nagród. SageMaker AI zarządza całym procesem backendowym, od skalowania zasobów obliczeniowych po zarządzanie fazami treningu i dostrajaniem hiperparametrów. Ta abstrakcja pozwala zespołom skoncentrować się na jakości zestawu danych i projekcie funkcji nagród, które są prawdziwymi czynnikami poprawy modelu. Dla przedsiębiorstw to podejście bezserwerowe przekłada się na szybsze cykle iteracji, zmniejszone koszty i niższy próg wejścia dla zaawansowanego dostosowywania LLM. To rewolucja dla tych, którzy chcą skalować AI dla wszystkich, upraszczając złożone procesy dostrajania LLM.

Dlaczego RLVR jest doskonałe do wywoływania narzędzi agentowych

Jeśli chodzi o nauczenie agenta AI niezawodnego korzystania z narzędzi, nie wszystkie techniki dostrajania są sobie równe. Nadzorowane dostrajanie (SFT) wymaga skrupulatnie oznakowanych przykładów dla każdego możliwego zachowania, które model powinien wykazywać – wywołania narzędzia, prośby o wyjaśnienie lub odrzucenia żądania. Wyzwaniem w SFT jest jego trudność w uogólnianiu procesu podejmowania decyzji między tymi odrębnymi zachowaniami, często dobrze radząc sobie z wzorcami widzianymi podczas treningu, ale zawodząc w nowych scenariuszach.

Uczenie Wzmacniane z Weryfikowalnymi Nagrodami (RLVR) oferuje bardziej dynamiczne i skuteczne rozwiązanie. W przeciwieństwie do SFT, RLVR działa w pętli sprzężenia zwrotnego:

Generowanie Kandydatur: Dla każdego promptu model generuje wiele (np. osiem) potencjalnych odpowiedzi.
Ocena funkcji nagród: Zdefiniowana funkcja nagród obiektywnie ocenia każdą kandydaturę, wskazując jej jakość, poprawność i zgodność z pożądanym zachowaniem (np. czy wywołała odpowiednie narzędzie z prawidłowymi parametrami?).
Aktualizacja polityki: Używając Optymalizacji Polityki Względnej Grup (GRPO), polityka modelu jest aktualizowana w celu wzmocnienia odpowiedzi, które uzyskały wyniki powyżej średniej dla wygenerowanej grupy. Ten proces iteracyjnie prowadzi model do bardziej optymalnego zachowania.

To iteracyjne uczenie umożliwia modelowi zrozumienie nie tylko jak wykonać konkretną akcję, ale kiedy ją wykonać. Uczy się niuansów rozróżniania między sytuacjami, w których wywołanie narzędzia jest odpowiednie, potrzebne jest wyjaśnienie lub odmowa jest najlepszym działaniem. Ponieważ wywoływanie narzędzi ma naturalnie weryfikowalny cel — czy model wywołał właściwą funkcję z właściwymi parametrami — doskonale pasuje do paradygmatu RLVR, co czyni go idealnym dla agentów AI wymagających wysokiej niezawodności. Ta metoda skutecznie rozwiązuje wyzwanie projektowania agentów odpornych na wstrzyknięcie promptów poprzez wzmacnianie precyzyjnych wzorców działania.

Przygotowanie wysokiej jakości danych treningowych dla RLVR

Sukces każdego wysiłku dostrajania, zwłaszcza z RLVR, zależy od jakości i kompleksowości danych treningowych. W przypadku wywoływania narzędzi agentowych, zestaw danych musi nauczyć model więcej niż tylko prawidłowego wywoływania API; musi obejmować pełne spektrum wymaganych zachowań agenta.

Nasze podejście polegało na wygenerowaniu 1500 syntetycznych przykładów treningowych przy użyciu Kiro, środowiska IDE firmy Amazon opartego na AI. Przykłady te obejmowały pięć odrębnych schematów narzędzi: get_weather_forecast, search_flights, translate_text, currency_convert i get_statistics. Co ważne, dane zostały rozłożone na trzy podstawowe zachowania agentów, aby zapewnić zrównoważone uczenie:

Zachowanie	Opis	Procent	Przykład Ground Truth
Wykonaj	Użytkownik podaje wszystkie niezbędne parametry, model powinien wywołać narzędzie.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Wyjaśnij	W żądaniu użytkownika brakuje wymaganych parametrów, model powinien poprosić o wyjaśnienie.	25%	`Aby dostarczyć informacje o pogodzie, czy możesz podać lokalizację?`
Odmów	Żądanie jest szkodliwe lub poza zakresem, model powinien grzecznie odmówić.	15%	`Przepraszam, nie mogę spełnić tego żądania.`

Każdy przykład treningowy miał format JSONL, zawierający prompt (instrukcję systemową i żądanie użytkownika) oraz ground_truth w polu reward_model, na podstawie którego funkcja nagród przyznawała punkty. Zróżnicowanie sformułowań między formalnymi, swobodnymi i zwięzłymi dodatkowo zwiększyło solidność zbioru danych. Chociaż dane syntetyczne stanowią praktyczny punkt wyjścia, organizacje z istniejącymi przepływami pracy agentowymi mogą wykorzystać rzeczywiste prompty użytkowników i wywołania narzędzi z logów produkcyjnych, aby osiągnąć jeszcze wyższą jakość szkolenia. To przygotowanie danych jest kluczowym krokiem w inżynierii promptów dla złożonych zachowań agentów.

{
  "prompt": [
    {"role": "system", "content": "Jesteś pomocnym asystentem. Używając narzędzi, odpowiedz w następujący sposób: [...]"},
    {"role": "user", "content": "Pokaż pogodę dla San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "Jesteś pomocnym asystentem. Używając narzędzi, odpowiedz w następujący sposób: [...]"},
    {"role": "user", "content": "Pokaż pogodę"}
  ],
  "reward_model": {
    "ground_truth": "Aby dostarczyć informacje o pogodzie, czy możesz podać lokalizację?"
  }
}

Dostrajanie Qwen 2.5 7B Instruct za pomocą SageMaker AI

Proces dostrajania modelu takiego jak Qwen 2.5 7B Instruct w Amazon SageMaker AI Studio jest usprawniony i intuicyjny. Po upewnieniu się, że spełnione są niezbędne wymagania wstępne (konto AWS, rola IAM AWS, domena SageMaker AI, zasobnik S3), użytkownicy mogą przejść do sekcji Modele w SageMaker AI Studio.

Następnie, wybranie Qwen 2.5 7B Instruct i opcji Dostosuj za pomocą interfejsu użytkownika otwiera dedykowaną stronę konfiguracji. Ten interfejs umożliwia:

Wybór techniki: Jawne wybranie Uczenia Wzmacnianego z Weryfikowalnymi Nagrodami (RLVR) z listy rozwijanej.
Wprowadzanie danych: Wskazanie przygotowanych danych treningowych przechowywanych w zasobniku Amazon S3.
Funkcja nagród: Konfiguracja wielopoziomowego mechanizmu punktacji, który określa, jak kandydatury odpowiedzi są oceniane w stosunku do ground_truth.
Konfiguracja hiperparametrów: Dostosowywanie parametrów, takich jak rozmiar partii, chociaż SageMaker AI często automatycznie obsługuje optymalne ustawienia.

SageMaker AI obsługuje różnorodne rodziny modeli, w tym Amazon Nova, GPT-OSS, Llama, Qwen i DeepSeek, a także różne techniki, takie jak nadzorowane dostrajanie (SFT), bezpośrednia optymalizacja preferencji (DPO), RLVR i uczenie wzmacniane na podstawie informacji zwrotnej AI (RLAIF). Zintegrowane śledzenie MLflow zapewnia widoczność metryk treningu i walidacji, upraszczając monitorowanie wydajności i iterację. Ta łatwość użycia znacznie przyspiesza cykl rozwojowy dla programistów tworzących zaawansowane przepływy pracy agentowe GitHub.

Ocena i sukces wdrożenia

Skuteczność naszego dostrojonego modelu Qwen 2.5 7B Instruct została rygorystycznie oceniona na danych testowych, w tym w scenariuszach z całkowicie nieznanymi narzędziami — co stanowi kluczowy test zdolności uogólniania. Wyniki były przekonujące: dostrojony model osiągnął niezwykłą 57% poprawę nagrody za wywołanie narzędzia w porównaniu do modelu bazowego. Ten znaczący skok wydajności w scenariuszach, których nie napotkał podczas treningu, podkreśla moc RLVR w nauczaniu modeli solidnych umiejętności podejmowania decyzji w interakcjach z narzędziami.

Ta zwiększona niezawodność bezpośrednio przekłada się na większe zaufanie do wdrażania agentów AI w środowiskach produkcyjnych. Minimalizując przypadki halucynacji narzędzi, nieprawidłowych parametrów i nieodpowiednich działań, firmy mogą wykorzystywać agentów AI do bardziej krytycznych i wrażliwych zadań. Dzięki SageMaker AI, które zajmuje się złożonością wdrażania modelu i zarządzania infrastrukturą, programiści mogą płynnie przechodzić od dostrajania do produkcji, realizując pełny potencjał swoich rozwiązań AI agentowej. Ta zdolność jest zgodna z szerszą wizją operacjonalizacji AI agentowej dla rzeczywistego wpływu.

Podsumowując, połączenie funkcji bezserwerowego dostosowania modelu Amazon SageMaker AI oraz solidnych możliwości uczenia się RLVR stanowi potężną ścieżkę do budowania wysoce niezawodnych systemów wywoływania narzędzi agentowych. To innowacyjne podejście przyspiesza rozwój, zmniejsza obciążenie operacyjne i ostatecznie dostarcza agentów AI, którzy działają z niespotykaną dokładnością i wiarygodnością.

Źródło oryginalne

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

Często zadawane pytania

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

Bądź na bieżąco

Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.

Udostępnij