{
"prompt": [
{"role": "system", "content": "Вы полезный помощник. При использовании инструментов отвечайте: [...]"},
{"role": "user", "content": "Покажи погоду"}
],
"reward_model": {
"ground_truth": "Чтобы предоставить вам информацию о погоде, пожалуйста, укажите местоположение?"
}
}
Дообучение Qwen 2.5 7B Instruct с помощью SageMaker AI
Процесс дообучения модели, такой как Qwen 2.5 7B Instruct, в Amazon SageMaker AI Studio упрощен и интуитивно понятен. После выполнения необходимых предварительных условий (учетная запись AWS, роль IAM, домен SageMaker AI, корзина S3) пользователи могут перейти в раздел Модели в SageMaker AI Studio.
Оттуда, выбрав Qwen 2.5 7B Instruct и затем Настроить с помощью UI, откроется специальная страница конфигурации. Этот интерфейс позволяет:
- Выбор метода: Явный выбор
обучения с подкреплением с проверяемыми вознаграждениями (RLVR)из выпадающего списка. - Ввод данных: Указание на подготовленные обучающие данные, хранящиеся в корзине Amazon S3.
- Функция вознаграждения: Настройка многоуровневого механизма оценки, который определяет, как оцениваются кандидатские ответы по отношению к
ground_truth. - Конфигурация гиперпараметров: Настройка параметров, таких как размер пакета, хотя SageMaker AI часто автоматически обрабатывает оптимальные настройки.
SageMaker AI поддерживает широкий спектр семейств моделей, включая Amazon Nova, GPT-OSS, Llama, Qwen и DeepSeek, а также различные методы, такие как обучение с учителем (SFT), оптимизация прямых предпочтений (DPO), RLVR и обучение с подкреплением на основе обратной связи ИИ (RLAIF). Интегрированное отслеживание MLflow обеспечивает видимость метрик обучения и валидации, упрощая мониторинг производительности и итерации. Эта простота использования значительно ускоряет жизненный цикл разработки для разработчиков, создающих сложные github-agentic-workflows.
Оценка и успех развертывания
Эффективность нашей дообученной модели Qwen 2.5 7B Instruct была тщательно оценена на отложенных данных, включая сценарии с полностью неизвестными инструментами — критический тест на обобщение. Результаты были убедительными: дообученная модель достигла замечательного улучшения на 57% в вознаграждении за вызов инструмента по сравнению с базовой моделью. Этот значительный скачок производительности в сценариях, с которыми она не сталкивалась во время обучения, подчеркивает мощь RLVR в обучении моделей надежным способностям принятия решений для взаимодействия с инструментами.
Эта повышенная надежность напрямую трансформируется в более высокое доверие при развертывании агентов ИИ в производственных средах. Сводя к минимуму случаи галлюцинаций инструментов, некорректных параметров и ненадлежащих действий, предприятия могут использовать агентов ИИ для более критически важных и чувствительных задач. Благодаря SageMaker AI, управляющему сложностями развертывания модели и управления инфраструктурой, разработчики могут беспрепятственно переходить от дообучения к производству, реализуя весь потенциал своих агентных решений ИИ. Эта возможность соответствует более широкой концепции операционализации агентного ИИ для реального воздействия.
В заключение, комбинация бессерверной кастомизации модели Amazon SageMaker AI и надежных возможностей обучения RLVR предоставляет мощный путь к созданию высоконадежных систем вызова инструментов агентом. Этот инновационный подход ускоряет разработку, снижает операционные издержки и в конечном итоге предоставляет агентов ИИ, которые работают с беспрецедентной точностью и надежностью.
Часто задаваемые вопросы
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Будьте в курсе
Получайте последние новости ИИ на почту.
