{
"prompt": [
{"role": "system", "content": "Vous êtes un assistant utile. Lors de l'utilisation d'outils, répondez avec : [...]"},
{"role": "user", "content": "Obtenir la météo"}
],
"reward_model": {
"ground_truth": "Pour vous fournir les informations météorologiques, pourriez-vous préciser le lieu ?"
}
}
Affinage de Qwen 2.5 7B Instruct avec SageMaker AI
Le processus d'affinage d'un modèle comme Qwen 2.5 7B Instruct dans Amazon SageMaker AI Studio est rationalisé et intuitif. Après s'être assuré que les conditions préalables nécessaires (compte AWS, rôle IAM, domaine SageMaker AI, compartiment S3) sont remplies, les utilisateurs peuvent naviguer vers la section Modèles dans SageMaker AI Studio.
De là, la sélection de Qwen 2.5 7B Instruct et le choix de Personnaliser avec l'interface utilisateur ouvre une page de configuration dédiée. Cette interface permet :
- Sélection de la technique : Choisir explicitement l'
apprentissage par renforcement avec récompenses vérifiables (RLVR)dans le menu déroulant. - Saisie des données : Pointer vers les données d'entraînement préparées stockées dans un compartiment Amazon S3.
- Fonction de récompense : Configurer le mécanisme de score à plusieurs niveaux qui définit la manière dont les réponses candidates sont évaluées par rapport à la
ground_truth. - Configuration des hyperparamètres : Ajuster des paramètres comme la taille du lot, bien que SageMaker AI gère souvent automatiquement les réglages optimaux.
SageMaker AI prend en charge une gamme variée de familles de modèles, notamment Amazon Nova, GPT-OSS, Llama, Qwen, et DeepSeek, ainsi que diverses techniques comme l'affinage supervisé (SFT), l'optimisation des préférences directes (DPO), le RLVR et l'apprentissage par renforcement à partir des retours d'IA (RLAIF). Le suivi MLflow intégré offre une visibilité sur les métriques d'entraînement et de validation, simplifiant la surveillance des performances et l'itération. Cette facilité d'utilisation accélère considérablement le cycle de développement pour les développeurs qui construisent des flux de travail agentiques GitHub sophistiqués.
Succès de l'évaluation et du déploiement
L'efficacité de notre modèle Qwen 2.5 7B Instruct affiné a été rigoureusement évaluée sur des données mises de côté, y compris des scénarios avec des outils non vus — un test crucial pour la généralisation. Les résultats ont été éloquents : le modèle affiné a atteint une amélioration remarquable de 57 % de la récompense d'appel d'outils par rapport au modèle de base. Ce bond significatif de performance sur des scénarios qu'il n'avait pas rencontrés pendant l'entraînement souligne la puissance du RLVR pour enseigner aux modèles des capacités robustes de prise de décision pour l'interaction avec les outils.
Cette fiabilité accrue se traduit directement par une confiance plus élevée dans le déploiement d'agents IA dans des environnements de production. En minimisant les cas d'hallucinations d'outils, de paramètres incorrects et d'actions inappropriées, les entreprises peuvent exploiter les agents IA pour des tâches plus critiques et sensibles. Avec SageMaker AI gérant les complexités du déploiement de modèles et de la gestion de l'infrastructure, les développeurs peuvent passer sans heurts de l'affinage à la production, réalisant ainsi tout le potentiel de leurs solutions d'IA agentique. Cette capacité s'aligne sur la vision plus large de l'opérationnalisation de l'IA agentique pour un impact réel.
En résumé, la combinaison de la personnalisation de modèle sans serveur d'Amazon SageMaker AI et des capacités d'apprentissage robustes du RLVR offre une voie puissante pour construire des systèmes d'appel d'outils agentiques hautement fiables. Cette approche innovante accélère le développement, réduit la charge opérationnelle et, au final, livre des agents IA qui fonctionnent avec une précision et une fiabilité sans précédent.
Source originale
https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/Questions Fréquentes
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Restez informé
Recevez les dernières actualités IA dans votre boîte mail.
