What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Mempercepat Panggilan Alat Agen dengan Penyesuaian Model Tanpa Pelayan

AI Agen telah merevolusikan cara kita berfikir tentang tugas automatik, membolehkan sistem membuat keputusan dan berinteraksi dengan dunia melalui alat khusus. Walau bagaimanapun, utiliti sebenar agen AI dalam pengeluaran bergantung kepada keupayaan mereka untuk melaksanakan panggilan alat agen dengan boleh dipercayai. Ini adalah bagaimana agen menanyakan pangkalan data, mencetuskan aliran kerja yang kompleks, mengambil data masa nyata, dan bertindak secara tegas bagi pihak pengguna. Malangnya, halangan umum kepada penggunaan yang meluas adalah kecenderungan model bahasa besar (LLM) asas untuk menghasilkan alat yang tidak wujud secara halusinasi, menghantar parameter yang salah, atau cuba melakukan tindakan apabila penjelasan diperlukan. Kegagalan sedemikian menghakis kepercayaan dan menghalang penggunaan pengeluaran dengan ketara.

Amazon SageMaker AI sedang melangkah untuk menyelesaikan cabaran kritikal ini. Dengan menawarkan penyesuaian model tanpa pelayan, pembangun boleh menala halus LLM untuk panggilan alat agen yang teguh tanpa beban operasi yang biasa. Pusat kepada inovasi ini ialah Pembelajaran Pengukuhan dengan Ganjaran yang Boleh Disahkan (RLVR), satu teknik yang memperkasakan model untuk menjana dan mengesahkan respons mereka sendiri, belajar untuk mengutamakan interaksi alat yang berjaya. Catatan ini meneroka bagaimana SageMaker AI, menggunakan RLVR, secara dramatik meningkatkan kebolehpercayaan agen, mempamerkan peningkatan 57% dalam ganjaran panggilan alat pada senario yang tidak pernah dilihat dengan model Qwen 2.5 7B Instruct yang ditune halus.

Janji dan Bahaya Panggilan Alat Agen

Konsep agen AI berinteraksi dengan sistem luaran melalui alat adalah asas aplikasi AI lanjutan. Bayangkan agen yang boleh menempah penerbangan, meringkaskan dokumen dari pangkalan data, atau bahkan melaksanakan kod berdasarkan gesaan bahasa semula jadi. Kefungsian ini adalah tepat apa yang membolehkan panggilan alat agen. Namun, jalan ke penggunaan alat yang boleh dipercayai penuh dengan cabaran.

LLM asas, walaupun berkuasa dalam penjanaan bahasa, sering kekurangan pemahaman nuansa yang diperlukan untuk seruan alat yang tepat. Mereka mungkin mengandaikan alat yang tidak wujud, salah menafsirkan niat pengguna yang membawa kepada nilai parameter yang salah, atau gagal mengenali apabila maklumat kritikal hilang. Kesilapan ini membawa kepada pengalaman pengguna yang mengecewakan dan menjadikan penggunaan peringkat perusahaan berisiko. Bagi organisasi yang ingin mengendalikan agen AI secara berkesan, memastikan pelaksanaan alat yang boleh diramal dan boleh dipercayai adalah yang paling utama. Taruhannya tinggi, kerana agen yang boleh dipercayai boleh membuka tahap automasi dan kecekapan yang belum pernah terjadi sebelumnya, manakala agen yang tidak boleh dipercayai boleh menyebabkan kesilapan yang mahal dan ketidakpuasan pengguna. Inilah sebabnya mengapa pengoptimuman model yang teguh untuk aliran kerja agen adalah penting, tugas yang dipermudahkan dengan platform seperti SageMaker AI.

Penyesuaian Model Tanpa Pelayan: Kelebihan SageMaker AI

Pendekatan tradisional untuk meningkatkan prestasi LLM sering melibatkan pengurusan infrastruktur yang ketara – daripada perolehan GPU dan orkestrasi memori kepada infrastruktur ganjaran yang kompleks dan titik semak untuk pembelajaran pengukuhan. Tugas-tugas ini memperkenalkan beban operasi yang besar, mengalihkan sumber pembangun yang berharga daripada menumpukan pada masalah utama: memperhalusi tingkah laku model.

Penyesuaian model tanpa pelayan Amazon SageMaker AI menghilangkan beban ini. Pembangun boleh memilih model asas (cth., Qwen, Llama, GPT-OSS), mengkonfigurasi teknik penalaan halus seperti RLVR, menunjuk ke data mereka, dan mentakrifkan fungsi ganjaran. SageMaker AI kemudian menguruskan keseluruhan proses belakang, daripada penskalaan sumber pengkomputeran hingga menguruskan fasa latihan dan penalaan hiperparameter. Abstraksi ini membolehkan pasukan menumpukan pada kualiti set data dan reka bentuk fungsi ganjaran, yang merupakan pendorong sebenar peningkatan model. Bagi perusahaan, pendekatan tanpa pelayan ini diterjemahkan kepada kitaran lelaran yang lebih cepat, kos yang dikurangkan, dan halangan kemasukan yang lebih rendah untuk penyesuaian LLM lanjutan. Ia adalah pengubah permainan bagi mereka yang ingin menskala AI untuk semua orang dengan memudahkan proses penalaan halus LLM yang kompleks.

Mengapa RLVR Hebat untuk Panggilan Alat Agen

Apabila ia datang untuk mengajar agen AI menggunakan alat dengan boleh dipercayai, tidak semua teknik penalaan halus dicipta sama. Penalaan Halus Berasaskan Penyeliaan (SFT) memerlukan contoh yang dilabel dengan teliti untuk setiap kemungkinan tingkah laku yang perlu dipamerkan oleh model – memanggil alat, meminta penjelasan, atau menolak permintaan. Cabaran dengan SFT adalah perjuangannya untuk menggeneralisasikan proses pembuatan keputusan antara tingkah laku yang berbeza ini, sering berprestasi baik pada corak yang dilihat semasa latihan tetapi goyah pada senario baharu.

Pembelajaran Pengukuhan dengan Ganjaran yang Boleh Disahkan (RLVR) menawarkan penyelesaian yang lebih dinamik dan berkesan. Tidak seperti SFT, RLVR beroperasi pada gelung maklum balas:

Penjanaan Calon: Untuk setiap gesaan, model menjana pelbagai (cth., lapan) respons yang berpotensi.
Penilaian Fungsi Ganjaran: Satu fungsi ganjaran yang telah ditetapkan secara objektif menilai setiap calon, menunjukkan kualiti, ketepatan, dan pematuhannya kepada tingkah laku yang diingini (cth., adakah ia memanggil alat yang betul dengan parameter yang betul?).
Kemas Kini Dasar: Menggunakan Pengoptimuman Dasar Relatif Kumpulan (GRPO), dasar model dikemas kini untuk mengukuhkan respons yang mendapat skor di atas purata kumpulan yang dijana. Proses ini secara berulang membimbing model ke arah tingkah laku yang lebih optimum.

Pembelajaran berulang ini membolehkan model memahami bukan sahaja bagaimana untuk melakukan tindakan tertentu, tetapi bila untuk melakukannya. Ia mempelajari nuansa membezakan antara situasi di mana panggilan alat sesuai, penjelasan diperlukan, atau penolakan adalah tindakan terbaik. Oleh kerana panggilan alat mempunyai objektif yang boleh disahkan secara semula jadi—sama ada model memanggil fungsi yang betul dengan parameter yang betul—ia memetakan dengan sangat baik kepada paradigma RLVR, menjadikannya ideal untuk agen AI yang memerlukan kebolehpercayaan tinggi. Kaedah ini secara berkesan menangani cabaran mereka bentuk agen untuk menentang suntikan gesaan dengan mengukuhkan corak tindakan yang tepat.

Menyediakan Data Latihan Berkualiti Tinggi untuk RLVR

Kejayaan mana-mana usaha penalaan halus, terutamanya dengan RLVR, bergantung pada kualiti dan kelengkapan data latihan. Untuk panggilan alat agen, set data mesti mengajar model lebih daripada sekadar seruan API yang betul; ia perlu merangkumi spektrum penuh tingkah laku agen yang diperlukan.

Pendekatan kami melibatkan penjanaan 1,500 contoh latihan sintetik menggunakan Kiro, IDE berkuasa AI Amazon. Contoh-contoh ini meliputi lima skema alat yang berbeza: get_weather_forecast, search_flights, translate_text, currency_convert, dan get_statistics. Yang penting, data diagihkan merentasi tiga tingkah laku agen utama untuk memastikan pembelajaran yang seimbang:

Tingkah Laku	Penerangan	Peratusan	Contoh Kebenaran Asas
Laksanakan	Pengguna menyediakan semua parameter yang diperlukan, model perlu memanggil alat.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Jelaskan	Permintaan pengguna kekurangan parameter yang diperlukan, model perlu meminta penjelasan.	25%	`Untuk memberikan anda maklumat cuaca, bolehkah anda menyatakan lokasi?`
Tolak	Permintaan berbahaya atau di luar skop, model perlu menolak dengan sopan.	15%	`Maaf, saya tidak dapat memenuhi permintaan itu.`

Setiap contoh latihan mengikut format JSONL, termasuk gesaan (arahan sistem dan permintaan pengguna) dan ground_truth dalam medan reward_model yang diskor oleh fungsi ganjaran. Perbezaan frasa antara formal, kasual, dan ringkas seterusnya meningkatkan keteguhan set data. Walaupun data sintetik menyediakan titik permulaan yang praktikal, organisasi dengan aliran kerja agen sedia ada boleh memanfaatkan gesaan pengguna sebenar dan panggilan alat daripada log pengeluaran untuk mencapai latihan berkualiti lebih tinggi. Penyediaan data ini adalah langkah kritikal dalam kejuruteraan gesaan untuk tingkah laku agen yang kompleks.

{
  "prompt": [
    {"role": "system", "content": "Anda adalah pembantu yang berguna. Apabila menggunakan alat, balas dengan: [...]"},
    {"role": "user", "content": "Dapatkan cuaca untuk San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "Anda adalah pembantu yang berguna. Apabila menggunakan alat, balas dengan: [...]"},
    {"role": "user", "content": "Dapatkan cuaca"}
  ],
  "reward_model": {
    "ground_truth": "Untuk memberikan anda maklumat cuaca, bolehkah anda menyatakan lokasi?"
  }
}

Menala Halus Qwen 2.5 7B Instruct dengan SageMaker AI

Proses menala halus model seperti Qwen 2.5 7B Instruct dalam Amazon SageMaker AI Studio adalah diperkemas dan intuitif. Setelah memastikan prasyarat yang diperlukan (akaun AWS, peranan IAM, domain SageMaker AI, baldi S3) dipenuhi, pengguna boleh menavigasi ke bahagian Models dalam SageMaker AI Studio.

Dari sana, memilih Qwen 2.5 7B Instruct dan memilih Customize with UI membuka halaman konfigurasi khusus. Antara muka ini membenarkan:

Pemilihan Teknik: Memilih secara eksplisit Pembelajaran Pengukuhan dengan Ganjaran yang Boleh Disahkan (RLVR) dari senarai juntai bawah.
Input Data: Menunjuk ke data latihan yang disediakan yang disimpan dalam baldi Amazon S3.
Fungsi Ganjaran: Mengkonfigurasi mekanisme penskoran berperingkat yang mentakrifkan bagaimana respons calon dinilai berdasarkan ground_truth.
Konfigurasi Hiperparameter: Melaraskan parameter seperti saiz kelompok, walaupun SageMaker AI sering mengendalikan tetapan optimum secara automatik.

SageMaker AI menyokong pelbagai keluarga model, termasuk Amazon Nova, GPT-OSS, Llama, Qwen, dan DeepSeek, bersama dengan pelbagai teknik seperti Penalaan Halus Berasaskan Penyeliaan (SFT), Pengoptimuman Keutamaan Langsung (DPO), RLVR, dan Pembelajaran Pengukuhan daripada Maklum Balas AI (RLAIF). Penjejakan MLflow bersepadu menyediakan keterlihatan ke dalam metrik latihan dan pengesahan, memudahkan pemantauan prestasi dan lelaran. Kemudahan penggunaan ini secara dramatik mempercepatkan kitaran pembangunan untuk pembangun yang membina github-agentic-workflows yang canggih.

Penilaian dan Kejayaan Penggunaan

Keberkesanan model Qwen 2.5 7B Instruct kami yang ditune halus dinilai dengan ketat pada data yang disimpan, termasuk senario dengan alat yang tidak pernah dilihat—ujian penting untuk generalisasi. Hasilnya sangat meyakinkan: model yang ditune halus mencapai peningkatan yang luar biasa sebanyak 57% dalam ganjaran panggilan alat berbanding model asas. Lompatan ketara dalam prestasi pada senario yang tidak ditemui semasa latihan ini menyerlahkan kekuatan RLVR dalam mengajar model keupayaan membuat keputusan yang teguh untuk interaksi alat.

Kebolehpercayaan yang dipertingkatkan ini secara langsung diterjemahkan kepada kepercayaan dan keyakinan yang lebih tinggi dalam menggunakan agen AI ke dalam persekitaran pengeluaran. Dengan meminimumkan kejadian halusinasi alat, parameter yang salah, dan tindakan yang tidak sesuai, perniagaan boleh memanfaatkan agen AI untuk tugas yang lebih kritikal dan sensitif. Dengan SageMaker AI mengendalikan kerumitan penggunaan model dan pengurusan infrastruktur, pembangun boleh bergerak dengan lancar dari penalaan halus ke pengeluaran, menyedari potensi penuh penyelesaian AI agen mereka. Keupayaan ini sejajar dengan visi yang lebih luas untuk mengendalikan AI agen untuk impak dunia nyata.

Ringkasnya, gabungan `penyesuaian model tanpa pelayan` Amazon SageMaker AI dan keupayaan pembelajaran teguh `RLVR` menyediakan laluan yang berkuasa untuk membina sistem `panggilan alat agen` yang sangat boleh dipercayai. Pendekatan inovatif ini mempercepatkan pembangunan, mengurangkan beban operasi, dan akhirnya menyampaikan agen AI yang berprestasi dengan ketepatan dan kebolehpercayaan yang belum pernah terjadi sebelumnya.

SageMaker AI: Mempercepat Panggilan Alat Agen dengan Penyesuaian Model Tanpa Pelayan

SageMaker AI: Mempercepat Panggilan Alat Agen dengan Penyesuaian Model Tanpa Pelayan

Janji dan Bahaya Panggilan Alat Agen

Penyesuaian Model Tanpa Pelayan: Kelebihan SageMaker AI

Mengapa RLVR Hebat untuk Panggilan Alat Agen

Menyediakan Data Latihan Berkualiti Tinggi untuk RLVR

Menala Halus Qwen 2.5 7B Instruct dengan SageMaker AI

Penilaian dan Kejayaan Penggunaan

Soalan Lazim

Kekal Dikemas Kini