SageMaker AI: Mempercepat Pemanggilan Alat Agentic dengan Kustomisasi Model Tanpa Server
AI Agentic telah merevolusi cara kita berpikir tentang tugas-tugas otomatis, memungkinkan sistem untuk membuat keputusan dan berinteraksi dengan dunia melalui alat-alat khusus. Namun, kegunaan sebenarnya dari agen AI dalam produksi bergantung pada kemampuan mereka untuk secara andal melakukan pemanggilan alat agentic. Inilah cara agen mengkueri database, memicu alur kerja yang kompleks, mengambil data real-time, dan bertindak secara tegas atas nama pengguna. Sayangnya, hambatan umum untuk adopsi luas adalah kecenderungan model bahasa besar (LLM) dasar untuk mengkhayalkan alat, meneruskan parameter yang salah, atau mencoba tindakan ketika klarifikasi diperlukan. Kegagalan tersebut mengikis kepercayaan dan secara signifikan menghambat penyebaran produksi.
Amazon SageMaker AI sedang berupaya mengatasi tantangan krusial ini. Dengan menawarkan kustomisasi model tanpa server, pengembang dapat melakukan fine-tuning LLM untuk pemanggilan alat agentic yang kuat tanpa overhead operasional yang khas. Inti dari inovasi ini adalah Pembelajaran Penguatan dengan Hadiah yang Dapat Diverifikasi (RLVR), sebuah teknik yang memberdayakan model untuk menghasilkan dan memvalidasi responsnya sendiri, belajar untuk mengutamakan interaksi alat yang berhasil. Postingan ini membahas bagaimana SageMaker AI, memanfaatkan RLVR, secara dramatis meningkatkan keandalan agen, menunjukkan peningkatan 57% dalam hadiah pemanggilan alat pada skenario yang tidak terlihat dengan model Qwen 2.5 7B Instruct yang telah di-fine-tune.
Janji dan Bahaya Pemanggilan Alat Agentic
Konsep agen AI yang berinteraksi dengan sistem eksternal melalui alat adalah landasan aplikasi AI canggih. Bayangkan agen yang dapat memesan penerbangan, meringkas dokumen dari database, atau bahkan menjalankan kode berdasarkan prompt bahasa alami. Fungsionalitas inilah yang memungkinkan pemanggilan alat agentic. Namun, jalur menuju penggunaan alat yang andal penuh dengan tantangan.
LLM dasar, meskipun kuat dalam menghasilkan bahasa, seringkali kurang memiliki pemahaman nuansa yang diperlukan untuk pemanggilan alat yang tepat. Mereka mungkin menyimpulkan alat yang tidak ada, salah menafsirkan maksud pengguna yang menyebabkan nilai parameter salah, atau gagal mengenali ketika informasi penting hilang. Kesalahan-kesalahan ini menyebabkan pengalaman pengguna yang membuat frustrasi dan membuat penerapan tingkat perusahaan berisiko. Bagi organisasi yang ingin mengoperasionalisasikan agen AI secara efektif, memastikan eksekusi alat yang dapat diprediksi dan dapat dipercaya adalah yang terpenting. Taruhannya tinggi, karena agen yang andal dapat membuka tingkat otomatisasi dan efisiensi yang belum pernah terjadi sebelumnya, sementara agen yang tidak dapat diandalkan dapat menyebabkan kesalahan yang mahal dan ketidakpuasan pengguna. Inilah mengapa optimisasi model yang kuat untuk alur kerja agentic sangat penting, sebuah tugas yang dibuat lebih sederhana dengan platform seperti SageMaker AI.
Kustomisasi Model Tanpa Server: Keunggulan SageMaker AI
Pendekatan tradisional untuk meningkatkan kinerja LLM seringkali melibatkan manajemen infrastruktur yang signifikan – mulai dari pengadaan GPU dan orkestrasi memori hingga infrastruktur hadiah yang kompleks dan checkpointing untuk pembelajaran penguatan. Tugas-tugas ini memperkenalkan overhead operasional yang besar, mengalihkan sumber daya pengembang yang berharga dari berfokus pada masalah inti: menyempurnakan perilaku model.
Kustomisasi model tanpa server Amazon SageMaker AI menghilangkan beban ini. Pengembang dapat memilih model dasar (misalnya, Qwen, Llama, GPT-OSS), mengonfigurasi teknik fine-tuning seperti RLVR, menunjuk ke data mereka, dan mendefinisikan fungsi hadiah. SageMaker AI kemudian mengelola seluruh proses backend, mulai dari penskalaan sumber daya komputasi hingga pengelolaan fase pelatihan dan penyetelan hyperparameter. Abstraksi ini memungkinkan tim untuk berkonsentrasi pada kualitas dataset dan desain fungsi hadiah, yang merupakan pendorong sejati peningkatan model. Bagi perusahaan, pendekatan tanpa server ini berarti siklus iterasi yang lebih cepat, biaya yang berkurang, dan hambatan masuk yang lebih rendah untuk kustomisasi LLM tingkat lanjut. Ini adalah pengubah permainan bagi mereka yang ingin menskalakan AI untuk semua orang dengan menyederhanakan proses fine-tuning LLM yang kompleks.
Mengapa RLVR Unggul untuk Pemanggilan Alat Agentic
Ketika harus mengajari agen AI untuk secara andal menggunakan alat, tidak semua teknik fine-tuning diciptakan sama. Supervised Fine-Tuning (SFT) memerlukan contoh berlabel yang cermat untuk setiap perilaku yang mungkin ditunjukkan oleh model – memanggil alat, meminta klarifikasi, atau menolak permintaan. Tantangan dengan SFT adalah kesulitannya untuk menggeneralisasi proses pengambilan keputusan antara perilaku-perilaku yang berbeda ini, seringkali berkinerja baik pada pola yang terlihat selama pelatihan tetapi goyah pada skenario baru.
Pembelajaran Penguatan dengan Hadiah yang Dapat Diverifikasi (RLVR) menawarkan solusi yang lebih dinamis dan efektif. Tidak seperti SFT, RLVR beroperasi dalam lingkaran umpan balik:
- Generasi Kandidat: Untuk setiap prompt, model menghasilkan beberapa (misalnya, delapan) respons potensial.
- Evaluasi Fungsi Hadiah:
Fungsi hadiahyang telah ditentukan sebelumnya secara objektif menilai setiap kandidat, menunjukkan kualitas, kebenaran, dan kepatuhannya terhadap perilaku yang diinginkan (misalnya, apakah ia memanggil alat yang tepat dengan parameter yang benar?). - Pembaruan Kebijakan: Menggunakan Group Relative Policy Optimization (GRPO), kebijakan model diperbarui untuk memperkuat respons yang mencetak di atas rata-rata kelompok yang dihasilkan. Proses ini secara iteratively memandu model menuju perilaku yang lebih optimal.
Pembelajaran iteratif ini memungkinkan model untuk memahami tidak hanya bagaimana melakukan tindakan spesifik, tetapi kapan melakukannya. Ini mempelajari nuansa membedakan antara situasi di mana pemanggilan alat sesuai, klarifikasi diperlukan, atau penolakan adalah tindakan terbaik. Karena pemanggilan alat memiliki tujuan yang secara alami dapat diverifikasi—apakah model memanggil fungsi yang tepat dengan parameter yang benar—ini sangat cocok dengan paradigma RLVR, membuatnya ideal untuk agen AI yang membutuhkan keandalan tinggi. Metode ini secara efektif mengatasi tantangan merancang agen untuk menahan injeksi prompt dengan memperkuat pola tindakan yang tepat.
Menyiapkan Data Pelatihan Berkualitas Tinggi untuk RLVR
Keberhasilan setiap upaya fine-tuning, terutama dengan RLVR, bergantung pada kualitas dan kelengkapan data pelatihan. Untuk pemanggilan alat agentic, dataset harus mengajari model lebih dari sekadar pemanggilan API yang benar; itu perlu mencakup seluruh spektrum perilaku agen yang diperlukan.
Pendekatan kami melibatkan pembuatan 1.500 contoh pelatihan sintetik menggunakan Kiro, IDE bertenaga AI milik Amazon. Contoh-contoh ini mencakup lima skema alat yang berbeda: get_weather_forecast, search_flights, translate_text, currency_convert, dan get_statistics. Yang krusial, data didistribusikan di antara tiga perilaku agen utama untuk memastikan pembelajaran yang seimbang:
| Perilaku | Deskripsi | Persentase | Contoh Ground Truth |
|---|---|---|---|
| Eksekusi | Pengguna menyediakan semua parameter yang diperlukan, model harus memanggil alat. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Klarifikasi | Permintaan pengguna kehilangan parameter yang diperlukan, model harus meminta klarifikasi. | 25% | Untuk memberikan informasi cuaca, bisakah Anda menentukan lokasi? |
| Tolak | Permintaan berbahaya atau di luar cakupan, model harus menolak dengan sopan. | 15% | Maaf, saya tidak bisa memenuhi permintaan itu. |
Setiap contoh pelatihan mengikuti format JSONL, termasuk prompt (instruksi sistem dan permintaan pengguna) dan ground_truth dalam bidang reward_model yang menjadi acuan penilaian fungsi hadiah. Frase yang bervariasi antara formal, kasual, dan singkat lebih meningkatkan kekokohan dataset. Meskipun data sintetik menyediakan titik awal yang praktis, organisasi dengan alur kerja agentic yang ada dapat memanfaatkan prompt pengguna dan panggilan alat yang sebenarnya dari log produksi untuk mencapai pelatihan kualitas yang lebih tinggi. Persiapan data ini adalah langkah kritis dalam rekayasa prompt untuk perilaku agen yang kompleks.
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get weather for San Francisco"}
],
"reward_model": {
"ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Fine-Tuning Qwen 2.5 7B Instruct dengan SageMaker AI
Proses fine-tuning model seperti Qwen 2.5 7B Instruct di dalam Amazon SageMaker AI Studio dirampingkan dan intuitif. Setelah memastikan prasyarat yang diperlukan (akun AWS, peran IAM, domain SageMaker AI, bucket S3) terpenuhi, pengguna dapat menavigasi ke bagian Models di SageMaker AI Studio.
Dari sana, memilih Qwen 2.5 7B Instruct dan memilih Customize with UI akan membuka halaman konfigurasi khusus. Antarmuka ini memungkinkan untuk:
- Pemilihan Teknik: Secara eksplisit memilih
Pembelajaran Penguatan dengan Hadiah yang Dapat Diverifikasi (RLVR)dari dropdown. - Input Data: Menunjuk ke data pelatihan yang telah disiapkan yang disimpan dalam bucket Amazon S3.
- Fungsi Hadiah: Mengonfigurasi mekanisme penilaian berjenjang yang mendefinisikan bagaimana respons kandidat dievaluasi terhadap
ground_truth. - Konfigurasi Hyperparameter: Menyesuaikan parameter seperti ukuran batch, meskipun SageMaker AI sering menangani pengaturan optimal secara otomatis.
SageMaker AI mendukung beragam keluarga model, termasuk Amazon Nova, GPT-OSS, Llama, Qwen, dan DeepSeek, bersama dengan berbagai teknik seperti Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR, dan Reinforcement Learning from AI Feedback (RLAIF). Pelacakan MLflow terintegrasi memberikan visibilitas ke metrik pelatihan dan validasi, menyederhanakan pemantauan kinerja dan iterasi. Kemudahan penggunaan ini secara dramatis mempercepat siklus pengembangan bagi pengembang yang membangun alur kerja agentic GitHub yang canggih.
Evaluasi dan Keberhasilan Penyebaran
Efektivitas model Qwen 2.5 7B Instruct yang telah di-fine-tune kami dievaluasi secara ketat pada data yang tidak termasuk dalam pelatihan, termasuk skenario dengan alat yang sama sekali belum pernah terlihat—sebuah uji krusial untuk generalisasi. Hasilnya sangat meyakinkan: model yang di-fine-tune mencapai peningkatan 57% yang luar biasa dalam hadiah pemanggilan alat dibandingkan dengan model dasar. Lompatan signifikan dalam kinerja pada skenario yang belum pernah ditemui selama pelatihan ini menggarisbawahi kekuatan RLVR dalam mengajari model kemampuan pengambilan keputusan yang kuat untuk interaksi alat.
Keandalan yang ditingkatkan ini secara langsung berarti kepercayaan dan keyakinan yang lebih tinggi dalam menyebarkan agen AI ke lingkungan produksi. Dengan meminimalkan contoh halusinasi alat, parameter yang salah, dan tindakan yang tidak pantas, bisnis dapat memanfaatkan agen AI untuk tugas-tugas yang lebih kritis dan sensitif. Dengan SageMaker AI menangani kompleksitas penyebaran model dan manajemen infrastruktur, pengembang dapat dengan mulus beralih dari fine-tuning ke produksi, mewujudkan potensi penuh solusi AI agentic mereka. Kemampuan ini selaras dengan visi yang lebih luas dari mengoperasionalkan AI agentic untuk dampak dunia nyata.
Singkatnya, kombinasi kustomisasi model tanpa server Amazon SageMaker AI dan kapabilitas pembelajaran RLVR yang kuat menyediakan jalur yang ampuh untuk membangun sistem pemanggilan alat agentic yang sangatandal. Pendekatan inovatif ini mempercepat pengembangan, mengurangi beban operasional, dan pada akhirnya menghasilkan agen AI yang berkinerja dengan akurasi dan keandalan yang belum pernah terjadi sebelumnya.
Pertanyaan yang Sering Diajukan
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Tetap Update
Dapatkan berita AI terbaru di inbox Anda.
