SageMaker AI: Przyspieszanie wywoływania narzędzi agentowych dzięki dostosowaniu modelu bezserwerowego
AI agentowa zrewolucjonizowała nasze myślenie o zautomatyzowanych zadaniach, umożliwiając systemom podejmowanie decyzji i interakcję ze światem za pomocą wyspecjalizowanych narzędzi. Jednak prawdziwa użyteczność agentów AI w produkcji zależy od ich zdolności do niezawodnego wykonywania wywoływania narzędzi agentowych. To właśnie w ten sposób agenci odpytują bazy danych, uruchamiają złożone przepływy pracy, pobierają dane w czasie rzeczywistym i działają zdecydowanie w imieniu użytkownika. Niestety, częstą przeszkodą w szerokim przyjęciu była tendencja podstawowych dużych modeli językowych (LLM) do halucynowania narzędzi, przekazywania nieprawidłowych parametrów lub prób wykonywania działań, gdy potrzebne jest wyjaśnienie. Takie błędy podważają zaufanie i znacznie utrudniają wdrożenie produkcyjne.
Amazon SageMaker AI wychodzi naprzeciw tym krytycznym wyzwaniom. Oferując bezserwerowe dostosowanie modelu, programiści mogą dostrajać LLM do solidnego wywoływania narzędzi agentowych bez typowego obciążenia operacyjnego. Centralnym elementem tej innowacji jest Uczenie Wzmacniane z Weryfikowalnymi Nagrodami (RLVR), technika, która umożliwia modelom generowanie i walidowanie własnych odpowiedzi, ucząc się preferować udane interakcje z narzędziami. Ten post szczegółowo omawia, w jaki sposób SageMaker AI, wykorzystując RLVR, radykalnie poprawia niezawodność agentów, prezentując 57% wzrost nagrody za wywołanie narzędzia w nieznanych scenariuszach z dostrojonym modelem Qwen 2.5 7B Instruct.
Obietnice i pułapki wywoływania narzędzi agentowych
Koncepcja agentów AI wchodzących w interakcje z systemami zewnętrznymi za pośrednictwem narzędzi jest kamieniem węgielnym zaawansowanych aplikacji AI. Wyobraź sobie agenta, który może rezerwować loty, podsumowywać dokumenty z bazy danych, a nawet wykonywać kod na podstawie promptu w języku naturalnym. Ta funkcjonalność jest dokładnie tym, co umożliwia wywoływanie narzędzi agentowych. Jednak droga do niezawodnego użycia narzędzi jest pełna wyzwań.
Podstawowe LLM-y, choć potężne w generowaniu języka, często brakuje im subtelnego zrozumienia wymaganego do precyzyjnego wywołania narzędzia. Mogą one wywnioskować narzędzie, które nie istnieje, błędnie zinterpretować intencje użytkownika, co prowadzi do nieprawidłowych wartości parametrów, lub nie rozpoznać, kiedy brakuje krytycznych informacji. Te błędy prowadzą do frustrujących doświadczeń użytkowników i sprawiają, że wdrożenie na poziomie przedsiębiorstwa jest ryzykowne. Dla organizacji dążących do efektywnego operacjonalizowania agentów AI, zapewnienie przewidywalnego i godnego zaufania wykonania narzędzi jest najważniejsze. Stawka jest wysoka, ponieważ niezawodni agenci mogą odblokować bezprecedensowe poziomy automatyzacji i wydajności, podczas gdy zawodni mogą prowadzić do kosztownych błędów i niezadowolenia użytkowników. Dlatego solidna optymalizacja modelu dla przepływów pracy agentowych jest niezbędna, zadanie uproszczone dzięki platformom takim jak SageMaker AI.
Bezserwerowe dostosowanie modelu: przewaga SageMaker AI
Tradycyjne podejście do poprawy wydajności LLM często wiąże się ze znacznym zarządzaniem infrastrukturą – od pozyskiwania GPU i orkiestracji pamięci po złożoną infrastrukturę nagród i punktów kontrolnych dla uczenia wzmacnianego. Te zadania wprowadzają znaczne obciążenie operacyjne, odciągając cenne zasoby programistów od skupiania się na kluczowym problemie: udoskonalaniu zachowania modelu.
Funkcja bezserwerowego dostosowania modelu w Amazon SageMaker AI eliminuje to obciążenie. Programiści mogą wybrać model bazowy (np. Qwen, Llama, GPT-OSS), skonfigurować technikę dostrajania, taką jak RLVR, wskazać swoje dane i zdefiniować funkcję nagród. SageMaker AI zarządza całym procesem backendowym, od skalowania zasobów obliczeniowych po zarządzanie fazami treningu i dostrajaniem hiperparametrów. Ta abstrakcja pozwala zespołom skoncentrować się na jakości zestawu danych i projekcie funkcji nagród, które są prawdziwymi czynnikami poprawy modelu. Dla przedsiębiorstw to podejście bezserwerowe przekłada się na szybsze cykle iteracji, zmniejszone koszty i niższy próg wejścia dla zaawansowanego dostosowywania LLM. To rewolucja dla tych, którzy chcą skalować AI dla wszystkich, upraszczając złożone procesy dostrajania LLM.
Dlaczego RLVR jest doskonałe do wywoływania narzędzi agentowych
Jeśli chodzi o nauczenie agenta AI niezawodnego korzystania z narzędzi, nie wszystkie techniki dostrajania są sobie równe. Nadzorowane dostrajanie (SFT) wymaga skrupulatnie oznakowanych przykładów dla każdego możliwego zachowania, które model powinien wykazywać – wywołania narzędzia, prośby o wyjaśnienie lub odrzucenia żądania. Wyzwaniem w SFT jest jego trudność w uogólnianiu procesu podejmowania decyzji między tymi odrębnymi zachowaniami, często dobrze radząc sobie z wzorcami widzianymi podczas treningu, ale zawodząc w nowych scenariuszach.
Uczenie Wzmacniane z Weryfikowalnymi Nagrodami (RLVR) oferuje bardziej dynamiczne i skuteczne rozwiązanie. W przeciwieństwie do SFT, RLVR działa w pętli sprzężenia zwrotnego:
- Generowanie Kandydatur: Dla każdego promptu model generuje wiele (np. osiem) potencjalnych odpowiedzi.
- Ocena funkcji nagród: Zdefiniowana
funkcja nagródobiektywnie ocenia każdą kandydaturę, wskazując jej jakość, poprawność i zgodność z pożądanym zachowaniem (np. czy wywołała odpowiednie narzędzie z prawidłowymi parametrami?). - Aktualizacja polityki: Używając Optymalizacji Polityki Względnej Grup (GRPO), polityka modelu jest aktualizowana w celu wzmocnienia odpowiedzi, które uzyskały wyniki powyżej średniej dla wygenerowanej grupy. Ten proces iteracyjnie prowadzi model do bardziej optymalnego zachowania.
To iteracyjne uczenie umożliwia modelowi zrozumienie nie tylko jak wykonać konkretną akcję, ale kiedy ją wykonać. Uczy się niuansów rozróżniania między sytuacjami, w których wywołanie narzędzia jest odpowiednie, potrzebne jest wyjaśnienie lub odmowa jest najlepszym działaniem. Ponieważ wywoływanie narzędzi ma naturalnie weryfikowalny cel — czy model wywołał właściwą funkcję z właściwymi parametrami — doskonale pasuje do paradygmatu RLVR, co czyni go idealnym dla agentów AI wymagających wysokiej niezawodności. Ta metoda skutecznie rozwiązuje wyzwanie projektowania agentów odpornych na wstrzyknięcie promptów poprzez wzmacnianie precyzyjnych wzorców działania.
Przygotowanie wysokiej jakości danych treningowych dla RLVR
Sukces każdego wysiłku dostrajania, zwłaszcza z RLVR, zależy od jakości i kompleksowości danych treningowych. W przypadku wywoływania narzędzi agentowych, zestaw danych musi nauczyć model więcej niż tylko prawidłowego wywoływania API; musi obejmować pełne spektrum wymaganych zachowań agenta.
Nasze podejście polegało na wygenerowaniu 1500 syntetycznych przykładów treningowych przy użyciu Kiro, środowiska IDE firmy Amazon opartego na AI. Przykłady te obejmowały pięć odrębnych schematów narzędzi: get_weather_forecast, search_flights, translate_text, currency_convert i get_statistics. Co ważne, dane zostały rozłożone na trzy podstawowe zachowania agentów, aby zapewnić zrównoważone uczenie:
| Zachowanie | Opis | Procent | Przykład Ground Truth |
|---|---|---|---|
| Wykonaj | Użytkownik podaje wszystkie niezbędne parametry, model powinien wywołać narzędzie. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Wyjaśnij | W żądaniu użytkownika brakuje wymaganych parametrów, model powinien poprosić o wyjaśnienie. | 25% | Aby dostarczyć informacje o pogodzie, czy możesz podać lokalizację? |
| Odmów | Żądanie jest szkodliwe lub poza zakresem, model powinien grzecznie odmówić. | 15% | Przepraszam, nie mogę spełnić tego żądania. |
Każdy przykład treningowy miał format JSONL, zawierający prompt (instrukcję systemową i żądanie użytkownika) oraz ground_truth w polu reward_model, na podstawie którego funkcja nagród przyznawała punkty. Zróżnicowanie sformułowań między formalnymi, swobodnymi i zwięzłymi dodatkowo zwiększyło solidność zbioru danych. Chociaż dane syntetyczne stanowią praktyczny punkt wyjścia, organizacje z istniejącymi przepływami pracy agentowymi mogą wykorzystać rzeczywiste prompty użytkowników i wywołania narzędzi z logów produkcyjnych, aby osiągnąć jeszcze wyższą jakość szkolenia. To przygotowanie danych jest kluczowym krokiem w inżynierii promptów dla złożonych zachowań agentów.
{
"prompt": [
{"role": "system", "content": "Jesteś pomocnym asystentem. Używając narzędzi, odpowiedz w następujący sposób: [...]"},
{"role": "user", "content": "Pokaż pogodę dla San Francisco"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "Jesteś pomocnym asystentem. Używając narzędzi, odpowiedz w następujący sposób: [...]"},
{"role": "user", "content": "Pokaż pogodę"}
],
"reward_model": {
"ground_truth": "Aby dostarczyć informacje o pogodzie, czy możesz podać lokalizację?"
}
}
Dostrajanie Qwen 2.5 7B Instruct za pomocą SageMaker AI
Proces dostrajania modelu takiego jak Qwen 2.5 7B Instruct w Amazon SageMaker AI Studio jest usprawniony i intuicyjny. Po upewnieniu się, że spełnione są niezbędne wymagania wstępne (konto AWS, rola IAM AWS, domena SageMaker AI, zasobnik S3), użytkownicy mogą przejść do sekcji Modele w SageMaker AI Studio.
Następnie, wybranie Qwen 2.5 7B Instruct i opcji Dostosuj za pomocą interfejsu użytkownika otwiera dedykowaną stronę konfiguracji. Ten interfejs umożliwia:
- Wybór techniki: Jawne wybranie
Uczenia Wzmacnianego z Weryfikowalnymi Nagrodami (RLVR)z listy rozwijanej. - Wprowadzanie danych: Wskazanie przygotowanych danych treningowych przechowywanych w zasobniku Amazon S3.
- Funkcja nagród: Konfiguracja wielopoziomowego mechanizmu punktacji, który określa, jak kandydatury odpowiedzi są oceniane w stosunku do
ground_truth. - Konfiguracja hiperparametrów: Dostosowywanie parametrów, takich jak rozmiar partii, chociaż SageMaker AI często automatycznie obsługuje optymalne ustawienia.
SageMaker AI obsługuje różnorodne rodziny modeli, w tym Amazon Nova, GPT-OSS, Llama, Qwen i DeepSeek, a także różne techniki, takie jak nadzorowane dostrajanie (SFT), bezpośrednia optymalizacja preferencji (DPO), RLVR i uczenie wzmacniane na podstawie informacji zwrotnej AI (RLAIF). Zintegrowane śledzenie MLflow zapewnia widoczność metryk treningu i walidacji, upraszczając monitorowanie wydajności i iterację. Ta łatwość użycia znacznie przyspiesza cykl rozwojowy dla programistów tworzących zaawansowane przepływy pracy agentowe GitHub.
Ocena i sukces wdrożenia
Skuteczność naszego dostrojonego modelu Qwen 2.5 7B Instruct została rygorystycznie oceniona na danych testowych, w tym w scenariuszach z całkowicie nieznanymi narzędziami — co stanowi kluczowy test zdolności uogólniania. Wyniki były przekonujące: dostrojony model osiągnął niezwykłą 57% poprawę nagrody za wywołanie narzędzia w porównaniu do modelu bazowego. Ten znaczący skok wydajności w scenariuszach, których nie napotkał podczas treningu, podkreśla moc RLVR w nauczaniu modeli solidnych umiejętności podejmowania decyzji w interakcjach z narzędziami.
Ta zwiększona niezawodność bezpośrednio przekłada się na większe zaufanie do wdrażania agentów AI w środowiskach produkcyjnych. Minimalizując przypadki halucynacji narzędzi, nieprawidłowych parametrów i nieodpowiednich działań, firmy mogą wykorzystywać agentów AI do bardziej krytycznych i wrażliwych zadań. Dzięki SageMaker AI, które zajmuje się złożonością wdrażania modelu i zarządzania infrastrukturą, programiści mogą płynnie przechodzić od dostrajania do produkcji, realizując pełny potencjał swoich rozwiązań AI agentowej. Ta zdolność jest zgodna z szerszą wizją operacjonalizacji AI agentowej dla rzeczywistego wpływu.
Podsumowując, połączenie funkcji bezserwerowego dostosowania modelu Amazon SageMaker AI oraz solidnych możliwości uczenia się RLVR stanowi potężną ścieżkę do budowania wysoce niezawodnych systemów wywoływania narzędzi agentowych. To innowacyjne podejście przyspiesza rozwój, zmniejsza obciążenie operacyjne i ostatecznie dostarcza agentów AI, którzy działają z niespotykaną dokładnością i wiarygodnością.
Źródło oryginalne
https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/Często zadawane pytania
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Bądź na bieżąco
Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.
