What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Accelerare la Chiamata di Strumenti Agenti con Personalizzazione Serverless

L'AI Agente ha rivoluzionato il modo in cui pensiamo ai compiti automatizzati, consentendo ai sistemi di prendere decisioni e interagire con il mondo tramite strumenti specializzati. Tuttavia, la vera utilità degli agenti AI in produzione dipende dalla loro capacità di eseguire in modo affidabile la chiamata di strumenti agenti. È così che gli agenti interrogano database, attivano flussi di lavoro complessi, recuperano dati in tempo reale e agiscono in modo deciso per conto di un utente. Sfortunatamente, un ostacolo comune all'ampia adozione è stata la tendenza dei modelli linguistici di grandi dimensioni (LLM) di base ad allucinare strumenti, a passare parametri errati o a tentare azioni quando è necessario un chiarimento. Tali fallimenti erodono la fiducia e ostacolano in modo significativo l'implementazione in produzione.

Amazon SageMaker AI sta intervenendo per risolvere queste sfide critiche. Offrendo la personalizzazione serverless del modello, gli sviluppatori possono ottimizzare gli LLM per una robusta chiamata di strumenti agenti senza il tipico sovraccarico operativo. Al centro di questa innovazione c'è l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR), una tecnica che consente ai modelli di generare e convalidare le proprie risposte, imparando a favorire interazioni di strumenti di successo. Questo post approfondisce come SageMaker AI, utilizzando RLVR, migliora drasticamente l'affidabilità degli agenti, mostrando un miglioramento del 57% nella ricompensa della chiamata di strumenti su scenari non visti con un modello Qwen 2.5 7B Instruct ottimizzato.

La Promessa e i Pericoli della Chiamata di Strumenti Agenti

Il concetto di agenti AI che interagiscono con sistemi esterni tramite strumenti è una pietra miliare delle applicazioni AI avanzate. Immagina un agente che può prenotare voli, riassumere documenti da un database o persino eseguire codice basato su un prompt in linguaggio naturale. Questa funzionalità è esattamente ciò che abilita la chiamata di strumenti agenti. Tuttavia, il percorso verso un uso affidabile degli strumenti è irto di sfide.

Gli LLM di base, pur essendo potenti nella generazione del linguaggio, spesso mancano della comprensione sfumata richiesta per una precisa invocazione degli strumenti. Potrebbero inferire uno strumento inesistente, interpretare male l'intento dell'utente portando a valori di parametri errati, o non riuscire a riconoscere quando mancano informazioni critiche. Questi passi falsi portano a esperienze utente frustranti e rendono rischiosa l'implementazione a livello aziendale. Per le organizzazioni che desiderano rendere operativi gli agenti AI in modo efficace, garantire un'esecuzione prevedibile e affidabile degli strumenti è fondamentale. La posta in gioco è alta, poiché agenti affidabili possono sbloccare livelli senza precedenti di automazione ed efficienza, mentre quelli inaffidabili possono portare a errori costosi e insoddisfazione dell'utente. Questo è il motivo per cui una robusta ottimizzazione del modello per i flussi di lavoro agenti è essenziale, un compito reso più semplice con piattaforme come SageMaker AI.

Personalizzazione Serverless del Modello: Il Vantaggio di SageMaker AI

L'approccio tradizionale per migliorare le prestazioni degli LLM spesso comporta una significativa gestione dell'infrastruttura – dall'approvvigionamento di GPU e l'orchestrazione della memoria all'infrastruttura complessa di ricompense e il checkpointing per l'apprendimento per rinforzo. Questi compiti introducono un notevole sovraccarico operativo, deviando risorse preziose degli sviluppatori dal concentrarsi sul problema principale: affinare il comportamento del modello.

La personalizzazione serverless del modello di Amazon SageMaker AI elimina questo onere. Gli sviluppatori possono selezionare un modello fondamentale (ad esempio, Qwen, Llama, GPT-OSS), configurare una tecnica di fine-tuning come RLVR, indicare i propri dati e definire una funzione di ricompensa. SageMaker AI gestisce quindi l'intero processo di backend, dallo scaling delle risorse di calcolo alla gestione delle fasi di addestramento e all'ottimizzazione degli iperparametri. Questa astrazione consente ai team di concentrarsi sulla qualità del dataset e sulla progettazione della funzione di ricompensa, che sono i veri motori del miglioramento del modello. Per le aziende, questo approccio serverless si traduce in cicli di iterazione più rapidi, costi ridotti e una barriera d'ingresso inferiore per la personalizzazione avanzata degli LLM. È un punto di svolta per coloro che desiderano scalare l'AI per tutti semplificando processi complessi di fine-tuning degli LLM.

Perché RLVR eccelle nella Chiamata di Strumenti Agenti

Quando si tratta di insegnare a un agente AI a utilizzare in modo affidabile gli strumenti, non tutte le tecniche di fine-tuning sono uguali. Il Supervised Fine-Tuning (SFT) richiede esempi etichettati meticolosamente per ogni possibile comportamento che un modello dovrebbe esibire – chiamare uno strumento, chiedere chiarimenti o rifiutare una richiesta. La sfida con SFT è la sua difficoltà a generalizzare il processo di decision-making tra questi comportamenti distinti, spesso performando bene su schemi visti durante l'addestramento ma fallendo in scenari nuovi.

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) offre una soluzione più dinamica ed efficace. A differenza di SFT, RLVR opera su un ciclo di feedback:

Generazione di Candidati: Per ogni prompt, il modello genera più (ad esempio, otto) risposte potenziali.
Valutazione della Funzione di Ricompensa: Una funzione di ricompensa predefinita valuta oggettivamente ogni candidato, indicando la sua qualità, correttezza e aderenza al comportamento desiderato (ad esempio, ha chiamato lo strumento giusto con i parametri corretti?).
Aggiornamento della Politica: Utilizzando la Group Relative Policy Optimization (GRPO), la politica del modello viene aggiornata per rinforzare le risposte che hanno ottenuto un punteggio superiore alla media del gruppo generato. Questo processo guida iterativamente il modello verso un comportamento più ottimale.

Questo apprendimento iterativo consente al modello di capire non solo come eseguire un'azione specifica, ma quando eseguirla. Impara le sfumature della distinzione tra situazioni in cui una chiamata a uno strumento è appropriata, è necessario un chiarimento o il rifiuto è la migliore linea di azione. Poiché la chiamata di strumenti ha un obiettivo naturalmente verificabile—se il modello ha chiamato la funzione giusta con i parametri giusti—si adatta eccezionalmente bene al paradigma RLVR, rendendola ideale per agenti AI che richiedono alta affidabilità. Questo metodo affronta efficacemente la sfida di progettare agenti per resistere all'iniezione di prompt rafforzando precisi schemi di azione.

Preparare Dati di Addestramento di Alta Qualità per RLVR

Il successo di qualsiasi sforzo di fine-tuning, specialmente con RLVR, dipende dalla qualità e dalla completezza dei dati di addestramento. Per la chiamata di strumenti agenti, il dataset deve insegnare al modello più che semplici invocazioni API corrette; deve comprendere l'intero spettro dei comportamenti richiesti dall'agente.

Il nostro approccio ha coinvolto la generazione di 1.500 esempi di addestramento sintetici utilizzando Kiro, l'IDE basato su AI di Amazon. Questi esempi coprivano cinque schemi di strumenti distinti: get_weather_forecast, search_flights, translate_text, currency_convert e get_statistics. Fondamentalmente, i dati sono stati distribuiti su tre comportamenti primari dell'agente per garantire un apprendimento equilibrato:

Comportamento	Descrizione	Percentuale	Esempio di Ground Truth
Esegui	L'utente fornisce tutti i parametri necessari, il modello dovrebbe chiamare uno strumento.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Chiarisci	La richiesta dell'utente manca di parametri richiesti, il modello dovrebbe chiedere chiarimenti.	25%	`Per fornirle le informazioni meteo, potrebbe specificare la località?`
Rifiuta	La richiesta è dannosa o fuori scopo, il modello dovrebbe rifiutare cortesemente.	15%	`Mi dispiace, non posso soddisfare quella richiesta.`

Ogni esempio di addestramento seguiva un formato JSONL, includendo un prompt (istruzione di sistema e richiesta utente) e una ground_truth nel campo reward_model contro cui la funzione di ricompensa valuta. Variare la formulazione tra formale, informale e concisa ha ulteriormente migliorato la robustezza del dataset. Sebbene i dati sintetici forniscano un punto di partenza pratico, le organizzazioni con flussi di lavoro agenti esistenti possono sfruttare prompt utente reali e chiamate a strumenti dai log di produzione per ottenere un addestramento di qualità ancora superiore. Questa preparazione dei dati è un passaggio critico nel prompt engineering per comportamenti agenti complessi.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

Fine-Tuning di Qwen 2.5 7B Instruct con SageMaker AI

Il processo di fine-tuning di un modello come Qwen 2.5 7B Instruct all'interno di Amazon SageMaker AI Studio è semplificato e intuitivo. Dopo essersi assicurati che i prerequisiti necessari (account AWS, ruolo IAM, dominio SageMaker AI, bucket S3) siano soddisfatti, gli utenti possono navigare nella sezione Modelli di SageMaker AI Studio.

Da lì, selezionando Qwen 2.5 7B Instruct e scegliendo Personalizza con UI si apre una pagina di configurazione dedicata. Questa interfaccia consente di:

Selezione della Tecnica: Scegliere esplicitamente l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) dal menu a discesa.
Input dei Dati: Indicare i dati di addestramento preparati archiviati in un bucket Amazon S3.
Funzione di Ricompensa: Configurare il meccanismo di punteggio a livelli che definisce come le risposte candidate vengono valutate rispetto alla ground_truth.
Configurazione degli Iperparametri: Regolare parametri come la dimensione del batch, sebbene SageMaker AI gestisca spesso automaticamente le impostazioni ottimali.

SageMaker AI supporta una vasta gamma di famiglie di modelli, inclusi Amazon Nova, GPT-OSS, Llama, Qwen e DeepSeek, insieme a varie tecniche come Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), RLVR e Reinforcement Learning from AI Feedback (RLAIF). Il tracciamento integrato di MLflow fornisce visibilità sulle metriche di addestramento e validazione, semplificando il monitoraggio delle prestazioni e l'iterazione. Questa facilità d'uso accelera drasticamente il ciclo di vita dello sviluppo per gli sviluppatori che costruiscono sofisticati github-agentic-workflows.

Valutazione e Successo dell'Implementazione

L'efficacia del nostro modello Qwen 2.5 7B Instruct ottimizzato è stata rigorosamente valutata su dati non utilizzati per l'addestramento, inclusi scenari con strumenti interamente mai visti—un test cruciale per la generalizzazione. I risultati sono stati convincenti: il modello ottimizzato ha ottenuto un notevole miglioramento del 57% nella ricompensa della chiamata a strumenti rispetto al modello di base. Questo significativo salto di prestazioni su scenari che non aveva incontrato durante l'addestramento sottolinea il potere di RLVR nell'insegnare ai modelli robuste capacità decisionali per l'interazione con gli strumenti.

Questa maggiore affidabilità si traduce direttamente in una maggiore fiducia nell'implementazione di agenti AI in ambienti di produzione. Riducendo al minimo i casi di allucinazioni degli strumenti, parametri errati e azioni inappropriate, le aziende possono sfruttare gli agenti AI per compiti più critici e sensibili. Con SageMaker AI che gestisce le complessità della distribuzione del modello e della gestione dell'infrastruttura, gli sviluppatori possono passare senza problemi dal fine-tuning alla produzione, realizzando il pieno potenziale delle loro soluzioni AI agenti. Questa capacità si allinea con la visione più ampia di rendere operativa l'AI agente per un impatto nel mondo reale.

In sintesi, la combinazione della personalizzazione serverless del modello di Amazon SageMaker AI e le robuste capacità di apprendimento di RLVR fornisce un potente percorso per la costruzione di sistemi di chiamata di strumenti agenti altamente affidabili. Questo approccio innovativo accelera lo sviluppo, riduce il carico operativo e, in ultima analisi, fornisce agenti AI che operano con precisione e affidabilità senza precedenti.

SageMaker AI: Accelerare la Chiamata di Strumenti Agenti con Personalizzazione Serverless

SageMaker AI: Accelerare la Chiamata di Strumenti Agenti con Personalizzazione Serverless

La Promessa e i Pericoli della Chiamata di Strumenti Agenti

Personalizzazione Serverless del Modello: Il Vantaggio di SageMaker AI

Perché RLVR eccelle nella Chiamata di Strumenti Agenti

Preparare Dati di Addestramento di Alta Qualità per RLVR

Fine-Tuning di Qwen 2.5 7B Instruct con SageMaker AI

Valutazione e Successo dell'Implementazione

Domande Frequenti

Resta aggiornato