{
"prompt": [
{"role": "system", "content": "คุณเป็นผู้ช่วยที่เป็นประโยชน์ เมื่อใช้เครื่องมือ ให้ตอบกลับด้วย: [...]"},
{"role": "user", "content": "รับสภาพอากาศ"}
],
"reward_model": {
"ground_truth": "เพื่อให้ข้อมูลสภาพอากาศแก่คุณ โปรดระบุตำแหน่ง"
}
}
การปรับแต่ง Qwen 2.5 7B Instruct ด้วย SageMaker AI
กระบวนการปรับแต่งโมเดลอย่าง Qwen 2.5 7B Instruct ภายใน Amazon SageMaker AI Studio นั้นง่ายและใช้งานง่าย หลังจากตรวจสอบให้แน่ใจว่าได้ปฏิบัติตาม ข้อกำหนดเบื้องต้น ที่จำเป็นแล้ว (บัญชี AWS, บทบาท IAM, โดเมน SageMaker AI, บักเก็ต S3) ผู้ใช้สามารถไปยังส่วน Models ใน SageMaker AI Studio ได้
จากนั้น การเลือก Qwen 2.5 7B Instruct และเลือก Customize with UI จะเปิดหน้าการกำหนดค่าเฉพาะ อินเทอร์เฟซนี้ช่วยให้:
- การเลือกเทคนิค: เลือก
Reinforcement Learning with Verifiable Rewards (RLVR)จากเมนูแบบเลื่อนลงอย่างชัดเจน - อินพุตข้อมูล: ชี้ไปยังข้อมูลการฝึกอบรมที่เตรียมไว้ซึ่งเก็บไว้ในบัคเก็ต Amazon S3
- ฟังก์ชันรางวัล: กำหนดค่ากลไกการให้คะแนนแบบแบ่งระดับที่กำหนดว่าการตอบสนองของผู้สมัครจะถูกประเมินเทียบกับ
ground_truthอย่างไร - การกำหนดค่าไฮเปอร์พารามิเตอร์: ปรับพารามิเตอร์เช่นขนาดแบตช์ แม้ว่า SageMaker AI มักจะจัดการการตั้งค่าที่เหมาะสมที่สุดโดยอัตโนมัติ
SageMaker AI รองรับตระกูลโมเดลที่หลากหลาย รวมถึง Amazon Nova, GPT-OSS, Llama, Qwen และ DeepSeek พร้อมด้วยเทคนิคต่างๆ เช่น Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR และ Reinforcement Learning from AI Feedback (RLAIF) การติดตาม MLflow ในตัวช่วยให้มองเห็นเมตริกการฝึกอบรมและการตรวจสอบความถูกต้อง ทำให้การตรวจสอบประสิทธิภาพและการวนซ้ำง่ายขึ้น ความง่ายในการใช้งานนี้ช่วยเร่งวงจรการพัฒนาอย่างมากสำหรับนักพัฒนาที่สร้าง github-agentic-workflows ที่ซับซ้อน
ความสำเร็จในการประเมินและการนำไปใช้งาน
ประสิทธิภาพของโมเดล Qwen 2.5 7B Instruct ที่ได้รับการปรับแต่งของเราได้รับการประเมินอย่างเข้มงวดบนข้อมูลที่ไม่ได้ใช้ในการฝึกอบรม ซึ่งรวมถึงสถานการณ์ที่มี เครื่องมือที่ไม่เคยเห็น มาก่อนเลย—ซึ่งเป็นการทดสอบที่สำคัญสำหรับการสรุปผลลัพธ์ ผลลัพธ์ที่ได้นั้นน่าทึ่ง: โมเดลที่ได้รับการปรับแต่งสามารถเพิ่มประสิทธิภาพในการเรียกใช้เครื่องมือได้ถึง 57% เมื่อเทียบกับโมเดลพื้นฐาน การก้าวกระโดดที่สำคัญในประสิทธิภาพในสถานการณ์ที่ไม่เคยพบเจอระหว่างการฝึกอบรมนี้ ตอกย้ำพลังของ RLVR ในการสอนโมเดลให้มีความสามารถในการตัดสินใจที่แข็งแกร่งสำหรับการโต้ตอบกับเครื่องมือ
ความน่าเชื่อถือที่เพิ่มขึ้นนี้ส่งผลโดยตรงต่อความไว้วางใจและความมั่นใจที่สูงขึ้นในการนำ เอเจนต์ AI ไปใช้ในสภาพแวดล้อมการผลิต ด้วยการลดเหตุการณ์ที่เครื่องมือเกิดภาพหลอน พารามิเตอร์ไม่ถูกต้อง และการกระทำที่ไม่เหมาะสม ธุรกิจสามารถใช้ประโยชน์จากเอเจนต์ AI สำหรับงานที่สำคัญและละเอียดอ่อนยิ่งขึ้น ด้วย SageMaker AI ที่จัดการความซับซ้อนของ การนำโมเดลไปใช้งาน และ การจัดการโครงสร้างพื้นฐาน นักพัฒนาสามารถย้ายจากการปรับแต่งไปสู่การผลิตได้อย่างราบรื่น ตระหนักถึงศักยภาพสูงสุดของโซลูชัน AI ของ agentic ความสามารถนี้สอดคล้องกับวิสัยทัศน์ที่กว้างขึ้นของ การนำ Agentic AI มาใช้งานจริง เพื่อผลกระทบในโลกจริง
โดยสรุป การรวมกันของ การปรับแต่งโมเดลแบบไร้เซิร์ฟเวอร์ ของ Amazon SageMaker AI และความสามารถในการเรียนรู้ที่แข็งแกร่งของ RLVR มอบหนทางที่มีประสิทธิภาพในการสร้างระบบ การเรียกใช้เครื่องมือของ agentic ที่น่าเชื่อถือสูง แนวทางที่เป็นนวัตกรรมนี้ช่วยเร่งการพัฒนา ลดภาระการปฏิบัติงาน และท้ายที่สุดก็ส่งมอบเอเจนต์ AI ที่ทำงานด้วยความแม่นยำและความน่าเชื่อถือที่ไม่เคยมีมาก่อน
คำถามที่พบบ่อย
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
อัปเดตข่าวสาร
รับข่าว AI ล่าสุดในกล่องจดหมายของคุณ
