SageMaker AI: Mempercepat Panggilan Alat Agen dengan Penyesuaian Model Tanpa Pelayan
AI Agen telah merevolusikan cara kita berfikir tentang tugas automatik, membolehkan sistem membuat keputusan dan berinteraksi dengan dunia melalui alat khusus. Walau bagaimanapun, utiliti sebenar agen AI dalam pengeluaran bergantung kepada keupayaan mereka untuk melaksanakan panggilan alat agen dengan boleh dipercayai. Ini adalah bagaimana agen menanyakan pangkalan data, mencetuskan aliran kerja yang kompleks, mengambil data masa nyata, dan bertindak secara tegas bagi pihak pengguna. Malangnya, halangan umum kepada penggunaan yang meluas adalah kecenderungan model bahasa besar (LLM) asas untuk menghasilkan alat yang tidak wujud secara halusinasi, menghantar parameter yang salah, atau cuba melakukan tindakan apabila penjelasan diperlukan. Kegagalan sedemikian menghakis kepercayaan dan menghalang penggunaan pengeluaran dengan ketara.
Amazon SageMaker AI sedang melangkah untuk menyelesaikan cabaran kritikal ini. Dengan menawarkan penyesuaian model tanpa pelayan, pembangun boleh menala halus LLM untuk panggilan alat agen yang teguh tanpa beban operasi yang biasa. Pusat kepada inovasi ini ialah Pembelajaran Pengukuhan dengan Ganjaran yang Boleh Disahkan (RLVR), satu teknik yang memperkasakan model untuk menjana dan mengesahkan respons mereka sendiri, belajar untuk mengutamakan interaksi alat yang berjaya. Catatan ini meneroka bagaimana SageMaker AI, menggunakan RLVR, secara dramatik meningkatkan kebolehpercayaan agen, mempamerkan peningkatan 57% dalam ganjaran panggilan alat pada senario yang tidak pernah dilihat dengan model Qwen 2.5 7B Instruct yang ditune halus.
Janji dan Bahaya Panggilan Alat Agen
Konsep agen AI berinteraksi dengan sistem luaran melalui alat adalah asas aplikasi AI lanjutan. Bayangkan agen yang boleh menempah penerbangan, meringkaskan dokumen dari pangkalan data, atau bahkan melaksanakan kod berdasarkan gesaan bahasa semula jadi. Kefungsian ini adalah tepat apa yang membolehkan panggilan alat agen. Namun, jalan ke penggunaan alat yang boleh dipercayai penuh dengan cabaran.
LLM asas, walaupun berkuasa dalam penjanaan bahasa, sering kekurangan pemahaman nuansa yang diperlukan untuk seruan alat yang tepat. Mereka mungkin mengandaikan alat yang tidak wujud, salah menafsirkan niat pengguna yang membawa kepada nilai parameter yang salah, atau gagal mengenali apabila maklumat kritikal hilang. Kesilapan ini membawa kepada pengalaman pengguna yang mengecewakan dan menjadikan penggunaan peringkat perusahaan berisiko. Bagi organisasi yang ingin mengendalikan agen AI secara berkesan, memastikan pelaksanaan alat yang boleh diramal dan boleh dipercayai adalah yang paling utama. Taruhannya tinggi, kerana agen yang boleh dipercayai boleh membuka tahap automasi dan kecekapan yang belum pernah terjadi sebelumnya, manakala agen yang tidak boleh dipercayai boleh menyebabkan kesilapan yang mahal dan ketidakpuasan pengguna. Inilah sebabnya mengapa pengoptimuman model yang teguh untuk aliran kerja agen adalah penting, tugas yang dipermudahkan dengan platform seperti SageMaker AI.
Penyesuaian Model Tanpa Pelayan: Kelebihan SageMaker AI
Pendekatan tradisional untuk meningkatkan prestasi LLM sering melibatkan pengurusan infrastruktur yang ketara – daripada perolehan GPU dan orkestrasi memori kepada infrastruktur ganjaran yang kompleks dan titik semak untuk pembelajaran pengukuhan. Tugas-tugas ini memperkenalkan beban operasi yang besar, mengalihkan sumber pembangun yang berharga daripada menumpukan pada masalah utama: memperhalusi tingkah laku model.
Penyesuaian model tanpa pelayan Amazon SageMaker AI menghilangkan beban ini. Pembangun boleh memilih model asas (cth., Qwen, Llama, GPT-OSS), mengkonfigurasi teknik penalaan halus seperti RLVR, menunjuk ke data mereka, dan mentakrifkan fungsi ganjaran. SageMaker AI kemudian menguruskan keseluruhan proses belakang, daripada penskalaan sumber pengkomputeran hingga menguruskan fasa latihan dan penalaan hiperparameter. Abstraksi ini membolehkan pasukan menumpukan pada kualiti set data dan reka bentuk fungsi ganjaran, yang merupakan pendorong sebenar peningkatan model. Bagi perusahaan, pendekatan tanpa pelayan ini diterjemahkan kepada kitaran lelaran yang lebih cepat, kos yang dikurangkan, dan halangan kemasukan yang lebih rendah untuk penyesuaian LLM lanjutan. Ia adalah pengubah permainan bagi mereka yang ingin menskala AI untuk semua orang dengan memudahkan proses penalaan halus LLM yang kompleks.
Mengapa RLVR Hebat untuk Panggilan Alat Agen
Apabila ia datang untuk mengajar agen AI menggunakan alat dengan boleh dipercayai, tidak semua teknik penalaan halus dicipta sama. Penalaan Halus Berasaskan Penyeliaan (SFT) memerlukan contoh yang dilabel dengan teliti untuk setiap kemungkinan tingkah laku yang perlu dipamerkan oleh model – memanggil alat, meminta penjelasan, atau menolak permintaan. Cabaran dengan SFT adalah perjuangannya untuk menggeneralisasikan proses pembuatan keputusan antara tingkah laku yang berbeza ini, sering berprestasi baik pada corak yang dilihat semasa latihan tetapi goyah pada senario baharu.
Pembelajaran Pengukuhan dengan Ganjaran yang Boleh Disahkan (RLVR) menawarkan penyelesaian yang lebih dinamik dan berkesan. Tidak seperti SFT, RLVR beroperasi pada gelung maklum balas:
- Penjanaan Calon: Untuk setiap gesaan, model menjana pelbagai (cth., lapan) respons yang berpotensi.
- Penilaian Fungsi Ganjaran: Satu
fungsi ganjaranyang telah ditetapkan secara objektif menilai setiap calon, menunjukkan kualiti, ketepatan, dan pematuhannya kepada tingkah laku yang diingini (cth., adakah ia memanggil alat yang betul dengan parameter yang betul?). - Kemas Kini Dasar: Menggunakan Pengoptimuman Dasar Relatif Kumpulan (GRPO), dasar model dikemas kini untuk mengukuhkan respons yang mendapat skor di atas purata kumpulan yang dijana. Proses ini secara berulang membimbing model ke arah tingkah laku yang lebih optimum.
Pembelajaran berulang ini membolehkan model memahami bukan sahaja bagaimana untuk melakukan tindakan tertentu, tetapi bila untuk melakukannya. Ia mempelajari nuansa membezakan antara situasi di mana panggilan alat sesuai, penjelasan diperlukan, atau penolakan adalah tindakan terbaik. Oleh kerana panggilan alat mempunyai objektif yang boleh disahkan secara semula jadi—sama ada model memanggil fungsi yang betul dengan parameter yang betul—ia memetakan dengan sangat baik kepada paradigma RLVR, menjadikannya ideal untuk agen AI yang memerlukan kebolehpercayaan tinggi. Kaedah ini secara berkesan menangani cabaran mereka bentuk agen untuk menentang suntikan gesaan dengan mengukuhkan corak tindakan yang tepat.
Menyediakan Data Latihan Berkualiti Tinggi untuk RLVR
Kejayaan mana-mana usaha penalaan halus, terutamanya dengan RLVR, bergantung pada kualiti dan kelengkapan data latihan. Untuk panggilan alat agen, set data mesti mengajar model lebih daripada sekadar seruan API yang betul; ia perlu merangkumi spektrum penuh tingkah laku agen yang diperlukan.
Pendekatan kami melibatkan penjanaan 1,500 contoh latihan sintetik menggunakan Kiro, IDE berkuasa AI Amazon. Contoh-contoh ini meliputi lima skema alat yang berbeza: get_weather_forecast, search_flights, translate_text, currency_convert, dan get_statistics. Yang penting, data diagihkan merentasi tiga tingkah laku agen utama untuk memastikan pembelajaran yang seimbang:
| Tingkah Laku | Penerangan | Peratusan | Contoh Kebenaran Asas |
|---|---|---|---|
| Laksanakan | Pengguna menyediakan semua parameter yang diperlukan, model perlu memanggil alat. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Jelaskan | Permintaan pengguna kekurangan parameter yang diperlukan, model perlu meminta penjelasan. | 25% | Untuk memberikan anda maklumat cuaca, bolehkah anda menyatakan lokasi? |
| Tolak | Permintaan berbahaya atau di luar skop, model perlu menolak dengan sopan. | 15% | Maaf, saya tidak dapat memenuhi permintaan itu. |
Setiap contoh latihan mengikut format JSONL, termasuk gesaan (arahan sistem dan permintaan pengguna) dan ground_truth dalam medan reward_model yang diskor oleh fungsi ganjaran. Perbezaan frasa antara formal, kasual, dan ringkas seterusnya meningkatkan keteguhan set data. Walaupun data sintetik menyediakan titik permulaan yang praktikal, organisasi dengan aliran kerja agen sedia ada boleh memanfaatkan gesaan pengguna sebenar dan panggilan alat daripada log pengeluaran untuk mencapai latihan berkualiti lebih tinggi. Penyediaan data ini adalah langkah kritikal dalam kejuruteraan gesaan untuk tingkah laku agen yang kompleks.
{
"prompt": [
{"role": "system", "content": "Anda adalah pembantu yang berguna. Apabila menggunakan alat, balas dengan: [...]"},
{"role": "user", "content": "Dapatkan cuaca untuk San Francisco"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "Anda adalah pembantu yang berguna. Apabila menggunakan alat, balas dengan: [...]"},
{"role": "user", "content": "Dapatkan cuaca"}
],
"reward_model": {
"ground_truth": "Untuk memberikan anda maklumat cuaca, bolehkah anda menyatakan lokasi?"
}
}
Menala Halus Qwen 2.5 7B Instruct dengan SageMaker AI
Proses menala halus model seperti Qwen 2.5 7B Instruct dalam Amazon SageMaker AI Studio adalah diperkemas dan intuitif. Setelah memastikan prasyarat yang diperlukan (akaun AWS, peranan IAM, domain SageMaker AI, baldi S3) dipenuhi, pengguna boleh menavigasi ke bahagian Models dalam SageMaker AI Studio.
Dari sana, memilih Qwen 2.5 7B Instruct dan memilih Customize with UI membuka halaman konfigurasi khusus. Antara muka ini membenarkan:
- Pemilihan Teknik: Memilih secara eksplisit
Pembelajaran Pengukuhan dengan Ganjaran yang Boleh Disahkan (RLVR)dari senarai juntai bawah. - Input Data: Menunjuk ke data latihan yang disediakan yang disimpan dalam baldi Amazon S3.
- Fungsi Ganjaran: Mengkonfigurasi mekanisme penskoran berperingkat yang mentakrifkan bagaimana respons calon dinilai berdasarkan
ground_truth. - Konfigurasi Hiperparameter: Melaraskan parameter seperti saiz kelompok, walaupun SageMaker AI sering mengendalikan tetapan optimum secara automatik.
SageMaker AI menyokong pelbagai keluarga model, termasuk Amazon Nova, GPT-OSS, Llama, Qwen, dan DeepSeek, bersama dengan pelbagai teknik seperti Penalaan Halus Berasaskan Penyeliaan (SFT), Pengoptimuman Keutamaan Langsung (DPO), RLVR, dan Pembelajaran Pengukuhan daripada Maklum Balas AI (RLAIF). Penjejakan MLflow bersepadu menyediakan keterlihatan ke dalam metrik latihan dan pengesahan, memudahkan pemantauan prestasi dan lelaran. Kemudahan penggunaan ini secara dramatik mempercepatkan kitaran pembangunan untuk pembangun yang membina github-agentic-workflows yang canggih.
Penilaian dan Kejayaan Penggunaan
Keberkesanan model Qwen 2.5 7B Instruct kami yang ditune halus dinilai dengan ketat pada data yang disimpan, termasuk senario dengan alat yang tidak pernah dilihat—ujian penting untuk generalisasi. Hasilnya sangat meyakinkan: model yang ditune halus mencapai peningkatan yang luar biasa sebanyak 57% dalam ganjaran panggilan alat berbanding model asas. Lompatan ketara dalam prestasi pada senario yang tidak ditemui semasa latihan ini menyerlahkan kekuatan RLVR dalam mengajar model keupayaan membuat keputusan yang teguh untuk interaksi alat.
Kebolehpercayaan yang dipertingkatkan ini secara langsung diterjemahkan kepada kepercayaan dan keyakinan yang lebih tinggi dalam menggunakan agen AI ke dalam persekitaran pengeluaran. Dengan meminimumkan kejadian halusinasi alat, parameter yang salah, dan tindakan yang tidak sesuai, perniagaan boleh memanfaatkan agen AI untuk tugas yang lebih kritikal dan sensitif. Dengan SageMaker AI mengendalikan kerumitan penggunaan model dan pengurusan infrastruktur, pembangun boleh bergerak dengan lancar dari penalaan halus ke pengeluaran, menyedari potensi penuh penyelesaian AI agen mereka. Keupayaan ini sejajar dengan visi yang lebih luas untuk mengendalikan AI agen untuk impak dunia nyata.
Ringkasnya, gabungan penyesuaian model tanpa pelayan Amazon SageMaker AI dan keupayaan pembelajaran teguh RLVR menyediakan laluan yang berkuasa untuk membina sistem panggilan alat agen yang sangat boleh dipercayai. Pendekatan inovatif ini mempercepatkan pembangunan, mengurangkan beban operasi, dan akhirnya menyampaikan agen AI yang berprestasi dengan ketepatan dan kebolehpercayaan yang belum pernah terjadi sebelumnya.
Soalan Lazim
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Kekal Dikemas Kini
Dapatkan berita AI terkini dalam peti masuk anda.
