{
"prompt": [
{"role": "system", "content": "Ви корисний помічник. При використанні інструментів відповідайте: [...]"},
{"role": "user", "content": "Дізнатись погоду"}
],
"reward_model": {
"ground_truth": "Щоб надати вам інформацію про погоду, будь ласка, уточніть місцезнаходження?"
}
}
Тонке налаштування Qwen 2.5 7B Instruct за допомогою SageMaker AI
Процес тонкого налаштування моделі, такої як Qwen 2.5 7B Instruct, в Amazon SageMaker AI Studio є спрощеним та інтуїтивно зрозумілим. Після забезпечення необхідних передумов (обліковий запис AWS, роль IAM, домен SageMaker AI, бакет S3), користувачі можуть перейти до розділу Моделі в SageMaker AI Studio.
Звідти, вибравши Qwen 2.5 7B Instruct та обравши Налаштувати за допомогою UI, відкривається спеціальна сторінка конфігурації. Цей інтерфейс дозволяє:
- Вибір техніки: Явно обрати
Навчання з підкріпленням з верифікованими нагородами (RLVR)з випадаючого списку. - Введення даних: Вказати підготовлені навчальні дані, збережені в бакеті Amazon S3.
- Функція нагороди: Налаштування багаторівневого механізму оцінки, який визначає, як оцінюються кандидатні відповіді порівняно з
ground_truth. - Конфігурація гіперпараметрів: Налаштування параметрів, таких як розмір пакету, хоча SageMaker AI часто автоматично керує оптимальними налаштуваннями.
SageMaker AI підтримує широкий спектр сімейств моделей, включаючи Amazon Nova, GPT-OSS, Llama, Qwen та DeepSeek, поряд з різними техніками, такими як Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR та Reinforcement Learning from AI Feedback (RLAIF). Інтегроване відстеження MLflow забезпечує видимість метрик навчання та валідації, спрощуючи моніторинг продуктивності та ітерації. Ця простота використання значно прискорює цикл розробки для розробників, які створюють складні github-agentic-workflows.
Оцінка та успіх розгортання
Ефективність нашої тонко налаштованої моделі Qwen 2.5 7B Instruct була ретельно оцінена на прихованих даних, включаючи сценарії з абсолютно невідомими інструментами — це критичний тест на узагальнення. Результати були вражаючими: тонко налаштована модель досягла значного 57% покращення нагороди за виклик інструмента порівняно з базовою моделлю. Цей значний стрибок у продуктивності на сценаріях, які вона не зустрічала під час навчання, підкреслює силу RLVR у навчанні моделей надійним здібностям до прийняття рішень для взаємодії з інструментами.
Ця підвищена надійність безпосередньо перетворюється на вищу довіру та впевненість у розгортанні AI-агентів у виробничих середовищах. Мінімізуючи випадки галюцинацій інструментів, некоректних параметрів та невідповідних дій, компанії можуть використовувати AI-агентів для більш критичних та чутливих завдань. Завдяки тому, що SageMaker AI бере на себе складнощі розгортання моделі та управління інфраструктурою, розробники можуть безперешкодно переходити від тонкого налаштування до виробництва, реалізуючи весь потенціал своїх агентних AI-рішень. Ця можливість узгоджується з ширшим баченням операціоналізації агентного AI для реального впливу.
Підсумовуючи, поєднання безсерверної кастомізації моделі Amazon SageMaker AI та надійних можливостей навчання RLVR забезпечує потужний шлях до створення високо надійних систем агентного виклику інструментів. Цей інноваційний підхід прискорює розробку, зменшує операційне навантаження та, зрештою, надає AI-агентів, які працюють з безпрецедентною точністю та надійністю.
Поширені запитання
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Будьте в курсі
Отримуйте найсвіжіші новини ШІ на пошту.
