What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Mempercepat Pemanggilan Alat Agentic dengan Kustomisasi Model Tanpa Server

AI Agentic telah merevolusi cara kita berpikir tentang tugas-tugas otomatis, memungkinkan sistem untuk membuat keputusan dan berinteraksi dengan dunia melalui alat-alat khusus. Namun, kegunaan sebenarnya dari agen AI dalam produksi bergantung pada kemampuan mereka untuk secara andal melakukan pemanggilan alat agentic. Inilah cara agen mengkueri database, memicu alur kerja yang kompleks, mengambil data real-time, dan bertindak secara tegas atas nama pengguna. Sayangnya, hambatan umum untuk adopsi luas adalah kecenderungan model bahasa besar (LLM) dasar untuk mengkhayalkan alat, meneruskan parameter yang salah, atau mencoba tindakan ketika klarifikasi diperlukan. Kegagalan tersebut mengikis kepercayaan dan secara signifikan menghambat penyebaran produksi.

Amazon SageMaker AI sedang berupaya mengatasi tantangan krusial ini. Dengan menawarkan kustomisasi model tanpa server, pengembang dapat melakukan fine-tuning LLM untuk pemanggilan alat agentic yang kuat tanpa overhead operasional yang khas. Inti dari inovasi ini adalah Pembelajaran Penguatan dengan Hadiah yang Dapat Diverifikasi (RLVR), sebuah teknik yang memberdayakan model untuk menghasilkan dan memvalidasi responsnya sendiri, belajar untuk mengutamakan interaksi alat yang berhasil. Postingan ini membahas bagaimana SageMaker AI, memanfaatkan RLVR, secara dramatis meningkatkan keandalan agen, menunjukkan peningkatan 57% dalam hadiah pemanggilan alat pada skenario yang tidak terlihat dengan model Qwen 2.5 7B Instruct yang telah di-fine-tune.

Janji dan Bahaya Pemanggilan Alat Agentic

Konsep agen AI yang berinteraksi dengan sistem eksternal melalui alat adalah landasan aplikasi AI canggih. Bayangkan agen yang dapat memesan penerbangan, meringkas dokumen dari database, atau bahkan menjalankan kode berdasarkan prompt bahasa alami. Fungsionalitas inilah yang memungkinkan pemanggilan alat agentic. Namun, jalur menuju penggunaan alat yang andal penuh dengan tantangan.

LLM dasar, meskipun kuat dalam menghasilkan bahasa, seringkali kurang memiliki pemahaman nuansa yang diperlukan untuk pemanggilan alat yang tepat. Mereka mungkin menyimpulkan alat yang tidak ada, salah menafsirkan maksud pengguna yang menyebabkan nilai parameter salah, atau gagal mengenali ketika informasi penting hilang. Kesalahan-kesalahan ini menyebabkan pengalaman pengguna yang membuat frustrasi dan membuat penerapan tingkat perusahaan berisiko. Bagi organisasi yang ingin mengoperasionalisasikan agen AI secara efektif, memastikan eksekusi alat yang dapat diprediksi dan dapat dipercaya adalah yang terpenting. Taruhannya tinggi, karena agen yang andal dapat membuka tingkat otomatisasi dan efisiensi yang belum pernah terjadi sebelumnya, sementara agen yang tidak dapat diandalkan dapat menyebabkan kesalahan yang mahal dan ketidakpuasan pengguna. Inilah mengapa optimisasi model yang kuat untuk alur kerja agentic sangat penting, sebuah tugas yang dibuat lebih sederhana dengan platform seperti SageMaker AI.

Kustomisasi Model Tanpa Server: Keunggulan SageMaker AI

Pendekatan tradisional untuk meningkatkan kinerja LLM seringkali melibatkan manajemen infrastruktur yang signifikan – mulai dari pengadaan GPU dan orkestrasi memori hingga infrastruktur hadiah yang kompleks dan checkpointing untuk pembelajaran penguatan. Tugas-tugas ini memperkenalkan overhead operasional yang besar, mengalihkan sumber daya pengembang yang berharga dari berfokus pada masalah inti: menyempurnakan perilaku model.

Kustomisasi model tanpa server Amazon SageMaker AI menghilangkan beban ini. Pengembang dapat memilih model dasar (misalnya, Qwen, Llama, GPT-OSS), mengonfigurasi teknik fine-tuning seperti RLVR, menunjuk ke data mereka, dan mendefinisikan fungsi hadiah. SageMaker AI kemudian mengelola seluruh proses backend, mulai dari penskalaan sumber daya komputasi hingga pengelolaan fase pelatihan dan penyetelan hyperparameter. Abstraksi ini memungkinkan tim untuk berkonsentrasi pada kualitas dataset dan desain fungsi hadiah, yang merupakan pendorong sejati peningkatan model. Bagi perusahaan, pendekatan tanpa server ini berarti siklus iterasi yang lebih cepat, biaya yang berkurang, dan hambatan masuk yang lebih rendah untuk kustomisasi LLM tingkat lanjut. Ini adalah pengubah permainan bagi mereka yang ingin menskalakan AI untuk semua orang dengan menyederhanakan proses fine-tuning LLM yang kompleks.

Mengapa RLVR Unggul untuk Pemanggilan Alat Agentic

Ketika harus mengajari agen AI untuk secara andal menggunakan alat, tidak semua teknik fine-tuning diciptakan sama. Supervised Fine-Tuning (SFT) memerlukan contoh berlabel yang cermat untuk setiap perilaku yang mungkin ditunjukkan oleh model – memanggil alat, meminta klarifikasi, atau menolak permintaan. Tantangan dengan SFT adalah kesulitannya untuk menggeneralisasi proses pengambilan keputusan antara perilaku-perilaku yang berbeda ini, seringkali berkinerja baik pada pola yang terlihat selama pelatihan tetapi goyah pada skenario baru.

Pembelajaran Penguatan dengan Hadiah yang Dapat Diverifikasi (RLVR) menawarkan solusi yang lebih dinamis dan efektif. Tidak seperti SFT, RLVR beroperasi dalam lingkaran umpan balik:

Generasi Kandidat: Untuk setiap prompt, model menghasilkan beberapa (misalnya, delapan) respons potensial.
Evaluasi Fungsi Hadiah: Fungsi hadiah yang telah ditentukan sebelumnya secara objektif menilai setiap kandidat, menunjukkan kualitas, kebenaran, dan kepatuhannya terhadap perilaku yang diinginkan (misalnya, apakah ia memanggil alat yang tepat dengan parameter yang benar?).
Pembaruan Kebijakan: Menggunakan Group Relative Policy Optimization (GRPO), kebijakan model diperbarui untuk memperkuat respons yang mencetak di atas rata-rata kelompok yang dihasilkan. Proses ini secara iteratively memandu model menuju perilaku yang lebih optimal.

Pembelajaran iteratif ini memungkinkan model untuk memahami tidak hanya bagaimana melakukan tindakan spesifik, tetapi kapan melakukannya. Ini mempelajari nuansa membedakan antara situasi di mana pemanggilan alat sesuai, klarifikasi diperlukan, atau penolakan adalah tindakan terbaik. Karena pemanggilan alat memiliki tujuan yang secara alami dapat diverifikasi—apakah model memanggil fungsi yang tepat dengan parameter yang benar—ini sangat cocok dengan paradigma RLVR, membuatnya ideal untuk agen AI yang membutuhkan keandalan tinggi. Metode ini secara efektif mengatasi tantangan merancang agen untuk menahan injeksi prompt dengan memperkuat pola tindakan yang tepat.

Menyiapkan Data Pelatihan Berkualitas Tinggi untuk RLVR

Keberhasilan setiap upaya fine-tuning, terutama dengan RLVR, bergantung pada kualitas dan kelengkapan data pelatihan. Untuk pemanggilan alat agentic, dataset harus mengajari model lebih dari sekadar pemanggilan API yang benar; itu perlu mencakup seluruh spektrum perilaku agen yang diperlukan.

Pendekatan kami melibatkan pembuatan 1.500 contoh pelatihan sintetik menggunakan Kiro, IDE bertenaga AI milik Amazon. Contoh-contoh ini mencakup lima skema alat yang berbeda: get_weather_forecast, search_flights, translate_text, currency_convert, dan get_statistics. Yang krusial, data didistribusikan di antara tiga perilaku agen utama untuk memastikan pembelajaran yang seimbang:

Perilaku	Deskripsi	Persentase	Contoh Ground Truth
Eksekusi	Pengguna menyediakan semua parameter yang diperlukan, model harus memanggil alat.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Klarifikasi	Permintaan pengguna kehilangan parameter yang diperlukan, model harus meminta klarifikasi.	25%	`Untuk memberikan informasi cuaca, bisakah Anda menentukan lokasi?`
Tolak	Permintaan berbahaya atau di luar cakupan, model harus menolak dengan sopan.	15%	`Maaf, saya tidak bisa memenuhi permintaan itu.`

Setiap contoh pelatihan mengikuti format JSONL, termasuk prompt (instruksi sistem dan permintaan pengguna) dan ground_truth dalam bidang reward_model yang menjadi acuan penilaian fungsi hadiah. Frase yang bervariasi antara formal, kasual, dan singkat lebih meningkatkan kekokohan dataset. Meskipun data sintetik menyediakan titik awal yang praktis, organisasi dengan alur kerja agentic yang ada dapat memanfaatkan prompt pengguna dan panggilan alat yang sebenarnya dari log produksi untuk mencapai pelatihan kualitas yang lebih tinggi. Persiapan data ini adalah langkah kritis dalam rekayasa prompt untuk perilaku agen yang kompleks.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

Fine-Tuning Qwen 2.5 7B Instruct dengan SageMaker AI

Proses fine-tuning model seperti Qwen 2.5 7B Instruct di dalam Amazon SageMaker AI Studio dirampingkan dan intuitif. Setelah memastikan prasyarat yang diperlukan (akun AWS, peran IAM, domain SageMaker AI, bucket S3) terpenuhi, pengguna dapat menavigasi ke bagian Models di SageMaker AI Studio.

Dari sana, memilih Qwen 2.5 7B Instruct dan memilih Customize with UI akan membuka halaman konfigurasi khusus. Antarmuka ini memungkinkan untuk:

Pemilihan Teknik: Secara eksplisit memilih Pembelajaran Penguatan dengan Hadiah yang Dapat Diverifikasi (RLVR) dari dropdown.
Input Data: Menunjuk ke data pelatihan yang telah disiapkan yang disimpan dalam bucket Amazon S3.
Fungsi Hadiah: Mengonfigurasi mekanisme penilaian berjenjang yang mendefinisikan bagaimana respons kandidat dievaluasi terhadap ground_truth.
Konfigurasi Hyperparameter: Menyesuaikan parameter seperti ukuran batch, meskipun SageMaker AI sering menangani pengaturan optimal secara otomatis.

SageMaker AI mendukung beragam keluarga model, termasuk Amazon Nova, GPT-OSS, Llama, Qwen, dan DeepSeek, bersama dengan berbagai teknik seperti Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR, dan Reinforcement Learning from AI Feedback (RLAIF). Pelacakan MLflow terintegrasi memberikan visibilitas ke metrik pelatihan dan validasi, menyederhanakan pemantauan kinerja dan iterasi. Kemudahan penggunaan ini secara dramatis mempercepat siklus pengembangan bagi pengembang yang membangun alur kerja agentic GitHub yang canggih.

Evaluasi dan Keberhasilan Penyebaran

Efektivitas model Qwen 2.5 7B Instruct yang telah di-fine-tune kami dievaluasi secara ketat pada data yang tidak termasuk dalam pelatihan, termasuk skenario dengan alat yang sama sekali belum pernah terlihat—sebuah uji krusial untuk generalisasi. Hasilnya sangat meyakinkan: model yang di-fine-tune mencapai peningkatan 57% yang luar biasa dalam hadiah pemanggilan alat dibandingkan dengan model dasar. Lompatan signifikan dalam kinerja pada skenario yang belum pernah ditemui selama pelatihan ini menggarisbawahi kekuatan RLVR dalam mengajari model kemampuan pengambilan keputusan yang kuat untuk interaksi alat.

Keandalan yang ditingkatkan ini secara langsung berarti kepercayaan dan keyakinan yang lebih tinggi dalam menyebarkan agen AI ke lingkungan produksi. Dengan meminimalkan contoh halusinasi alat, parameter yang salah, dan tindakan yang tidak pantas, bisnis dapat memanfaatkan agen AI untuk tugas-tugas yang lebih kritis dan sensitif. Dengan SageMaker AI menangani kompleksitas penyebaran model dan manajemen infrastruktur, pengembang dapat dengan mulus beralih dari fine-tuning ke produksi, mewujudkan potensi penuh solusi AI agentic mereka. Kemampuan ini selaras dengan visi yang lebih luas dari mengoperasionalkan AI agentic untuk dampak dunia nyata.

Singkatnya, kombinasi kustomisasi model tanpa server Amazon SageMaker AI dan kapabilitas pembelajaran RLVR yang kuat menyediakan jalur yang ampuh untuk membangun sistem pemanggilan alat agentic yang sangatandal. Pendekatan inovatif ini mempercepat pengembangan, mengurangi beban operasional, dan pada akhirnya menghasilkan agen AI yang berkinerja dengan akurasi dan keandalan yang belum pernah terjadi sebelumnya.

SageMaker AI: Mempercepat Pemanggilan Alat Agentic dengan Kustomisasi Model Tanpa Server

SageMaker AI: Mempercepat Pemanggilan Alat Agentic dengan Kustomisasi Model Tanpa Server

Janji dan Bahaya Pemanggilan Alat Agentic

Kustomisasi Model Tanpa Server: Keunggulan SageMaker AI

Mengapa RLVR Unggul untuk Pemanggilan Alat Agentic

Menyiapkan Data Pelatihan Berkualitas Tinggi untuk RLVR

Fine-Tuning Qwen 2.5 7B Instruct dengan SageMaker AI

Evaluasi dan Keberhasilan Penyebaran

Pertanyaan yang Sering Diajukan

Tetap Update