{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Tinh chỉnh Qwen 2.5 7B Instruct với SageMaker AI
Quá trình tinh chỉnh một mô hình như Qwen 2.5 7B Instruct trong Amazon SageMaker AI Studio được sắp xếp hợp lý và trực quan. Sau khi đảm bảo các điều kiện tiên quyết cần thiết (tài khoản AWS, vai trò IAM, miền SageMaker AI, nhóm S3) được đáp ứng, người dùng có thể điều hướng đến phần Models trong SageMaker AI Studio.
Từ đó, chọn Qwen 2.5 7B Instruct và chọn Customize with UI sẽ mở ra một trang cấu hình chuyên dụng. Giao diện này cho phép:
- Lựa chọn kỹ thuật: Chọn rõ ràng
Học tăng cường với phần thưởng có thể xác minh (RLVR)từ menu thả xuống. - Đầu vào dữ liệu: Trỏ đến dữ liệu huấn luyện đã chuẩn bị được lưu trữ trong một nhóm Amazon S3.
- Hàm phần thưởng: Cấu hình cơ chế chấm điểm theo cấp độ xác định cách các phản hồi ứng cử viên được đánh giá dựa trên
ground_truth. - Cấu hình siêu tham số: Điều chỉnh các tham số như kích thước lô, mặc dù SageMaker AI thường tự động xử lý các cài đặt tối ưu.
SageMaker AI hỗ trợ một loạt các họ mô hình đa dạng, bao gồm Amazon Nova, GPT-OSS, Llama, Qwen và DeepSeek, cùng với nhiều kỹ thuật khác nhau như Tinh chỉnh có giám sát (SFT), Tối ưu hóa ưu tiên trực tiếp (DPO), RLVR và Học tăng cường từ phản hồi của AI (RLAIF). Theo dõi MLflow tích hợp cung cấp khả năng hiển thị các số liệu huấn luyện và xác thực, đơn giản hóa việc giám sát hiệu suất và lặp lại. Sự dễ sử dụng này tăng tốc đáng kể chu kỳ phát triển cho các nhà phát triển xây dựng các github-agentic-workflows phức tạp.
Đánh giá và Thành công triển khai
Hiệu quả của mô hình Qwen 2.5 7B Instruct đã được tinh chỉnh của chúng tôi được đánh giá nghiêm ngặt trên dữ liệu được giữ lại, bao gồm các kịch bản với các công cụ chưa từng thấy—một thử nghiệm quan trọng để tổng quát hóa. Kết quả rất thuyết phục: mô hình đã tinh chỉnh đạt được sự cải thiện đáng kể 57% về phần thưởng gọi công cụ so với mô hình cơ bản. Bước nhảy vọt đáng kể về hiệu suất trên các kịch bản mà nó chưa gặp trong quá trình huấn luyện này nhấn mạnh sức mạnh của RLVR trong việc dạy các mô hình khả năng ra quyết định mạnh mẽ cho tương tác công cụ.
Độ tin cậy được nâng cao này trực tiếp chuyển thành lòng tin và sự tự tin cao hơn trong việc triển khai tác nhân AI vào môi trường sản xuất. Bằng cách giảm thiểu các trường hợp công cụ bị ảo giác, tham số không chính xác và hành động không phù hợp, các doanh nghiệp có thể tận dụng các tác nhân AI cho các tác vụ quan trọng và nhạy cảm hơn. Với SageMaker AI xử lý sự phức tạp của triển khai mô hình và quản lý cơ sở hạ tầng, các nhà phát triển có thể chuyển đổi liền mạch từ tinh chỉnh sang sản xuất, hiện thực hóa toàn bộ tiềm năng của các giải pháp AI tác nhân của họ. Khả năng này phù hợp với tầm nhìn rộng lớn hơn về vận hành AI tác nhân để tạo ra tác động trong thế giới thực.
Tóm lại, sự kết hợp giữa tùy chỉnh mô hình phi máy chủ của Amazon SageMaker AI và khả năng học mạnh mẽ của RLVR cung cấp một con đường mạnh mẽ để xây dựng các hệ thống gọi công cụ tác nhân có độ tin cậy cao. Cách tiếp cận đổi mới này tăng tốc phát triển, giảm gánh nặng vận hành và cuối cùng mang lại các tác nhân AI hoạt động với độ chính xác và đáng tin cậy chưa từng có.
Câu hỏi thường gặp
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Cập nhật tin tức
Nhận tin tức AI mới nhất qua email.
