What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

SageMaker AI: Accelerant la crida d'eines agentives amb personalització sense servidor

La IA agentiva ha revolucionat la nostra manera de pensar sobre les tasques automatitzades, permetent als sistemes prendre decisions i interactuar amb el món mitjançant eines especialitzades. Tanmateix, la veritable utilitat dels agents d'IA en producció depèn de la seva capacitat per realitzar de manera fiable la crida d'eines agentives. Així és com els agents consulten bases de dades, activen fluxos de treball complexos, recuperen dades en temps real i actuen amb decisió en nom d'un usuari. Malauradament, un obstacle comú per a l'adopció generalitzada ha estat la tendència dels models de llenguatge grans (LLMs) base a hallucinar eines, passar paràmetres incorrectes o intentar accions quan calen aclariments. Aquests errors erosionen la confiança i dificulten significativament el desplegament en producció.

Amazon SageMaker AI s'està posant a la feina per resoldre aquests reptes crítics. Oferint personalització de models sense servidor, els desenvolupadors poden ajustar els LLMs per a una crida d'eines agentives robusta sense la típica sobrecàrrega operativa. Al centre d'aquesta innovació hi ha l'Aprenentatge per Reforç amb Recompenses Verificables (RLVR), una tècnica que permet als models generar i validar les seves pròpies respostes, aprenent a afavorir les interaccions exitoses amb les eines. Aquesta publicació aprofundeix en com SageMaker AI, utilitzant RLVR, millora dràsticament la fiabilitat dels agents, mostrant una millora del 57% en la recompensa de la crida d'eines en escenaris no vistos amb un model Qwen 2.5 7B Instruct ajustat.

La promesa i els perills de la crida d'eines agentives

El concepte d'agents d'IA interactuant amb sistemes externs mitjançant eines és una pedra angular de les aplicacions avançades d'IA. Imagineu un agent que pot reservar vols, resumir documents d'una base de dades o fins i tot executar codi basat en un prompt de llenguatge natural. Aquesta funcionalitat és precisament el que permet la crida d'eines agentives. Tanmateix, el camí cap a un ús fiable de les eines està ple de reptes.

Els LLMs base, tot i ser potents en la generació de llenguatge, sovint manquen de la comprensió matisada necessària per a una invocació precisa d'eines. Podrien inferir una eina que no existeix, malinterpretar la intenció de l'usuari portant a valors de paràmetres incorrectes o no reconèixer quan falta informació crítica. Aquests errors condueixen a experiències d'usuari frustrants i fan que el desplegament a nivell empresarial sigui arriscat. Per a les organitzacions que busquen operacionalitzar agents d'IA de manera efectiva, garantir una execució d'eines previsible i fiable és fonamental. Hi ha molt en joc, ja que els agents fiables poden desbloquejar nivells d'automatització i eficiència sense precedents, mentre que els poc fiables poden conduir a errors costosos i insatisfacció de l'usuari. Per això és essencial una optimització robusta de models per als fluxos de treball agentius, una tasca simplificada amb plataformes com SageMaker AI.

Personalització de models sense servidor: l'avantatge de SageMaker AI

L'enfocament tradicional per millorar el rendiment dels LLM sovint implica una gestió significativa de la infraestructura, des de l'adquisició de GPU i l'orquestració de memòria fins a una infraestructura de recompenses complexa i la creació de punts de control per a l'aprenentatge per reforç. Aquestes tasques introdueixen una sobrecàrrega operativa considerable, desviant recursos valuosos dels desenvolupadors de centrar-se en el problema principal: refinar el comportament del model.

La personalització de models sense servidor d'Amazon SageMaker AI elimina aquesta càrrega. Els desenvolupadors poden seleccionar un model fundacional (per exemple, Qwen, Llama, GPT-OSS), configurar una tècnica d'ajustament com RLVR, apuntar a les seves dades i definir una funció de recompensa. SageMaker AI gestiona tot el procés de backend, des de l'escalat de recursos de càlcul fins a la gestió de les fases d'entrenament i l'ajust de hiperparàmetres. Aquesta abstracció permet als equips concentrar-se en la qualitat del conjunt de dades i el disseny de la funció de recompensa, que són els veritables motors de la millora del model. Per a les empreses, aquest enfocament sense servidor es tradueix en cicles d'iteració més ràpids, costos reduïts i una barrera d'entrada més baixa per a la personalització avançada de LLM. És un canvi de paradigma per a aquells que busquen escalar la IA per a tothom simplificant processos complexos d'ajustament de LLMs.

Per què RLVR destaca per a la crida d'eines agentives

Quan es tracta d'ensenyar a un agent d'IA a utilitzar eines de manera fiable, no totes les tècniques d'ajustament són iguals. L'ajustament supervisat (SFT) requereix exemples meticulosament etiquetats per a cada comportament possible que hauria de mostrar un model: cridar una eina, demanar aclariments o rebutjar una sol·licitud. El repte amb SFT és la seva dificultat per generalitzar el procés de presa de decisions entre aquests comportaments diferents, sovint funcionant bé en patrons vistos durant l'entrenament, però fallant en escenaris nous.

L'Aprenentatge per Reforç amb Recompenses Verificables (RLVR) ofereix una solució més dinàmica i efectiva. A diferència de SFT, RLVR funciona amb un bucle de retroalimentació:

Generació de candidates: Per a cada prompt, el model genera múltiples (per exemple, vuit) respostes potencials.
Avaluació de la funció de recompensa: Una funció de recompensa predefinida puntua objectivament cada candidata, indicant la seva qualitat, correcció i adherència al comportament desitjat (per exemple, ha cridat l'eina correcta amb els paràmetres correctes?).
Actualització de la política: Utilitzant l'Optimització de Política Relativa de Grup (GRPO), la política del model s'actualitza per reforçar les respostes que van obtenir una puntuació superior a la mitjana del grup generat. Aquest procés guia iterativament el model cap a un comportament més òptim.

Aquest aprenentatge iteratiu permet al model comprendre no només com realitzar una acció específica, sinó quan realitzar-la. Aprèn els matisos de distingir entre situacions on una crida a una eina és apropiada, cal aclariment o la negativa és el millor curs d'acció. Com que la crida d'eines té un objectiu naturalment verificable —si el model va cridar la funció correcta amb els paràmetres correctes—, s'adapta excepcionalment bé al paradigma RLVR, fent-lo ideal per a agents d'IA que requereixen alta fiabilitat. Aquest mètode aborda eficaçment el repte de dissenyar agents per resistir la injecció de prompts reforçant patrons d'acció precisos.

Preparació de dades d'entrenament d'alta qualitat per a RLVR

L'èxit de qualsevol esforç d'ajustament, especialment amb RLVR, depèn de la qualitat i l'exhaustivitat de les dades d'entrenament. Per a la crida d'eines agentives, el conjunt de dades ha d'ensenyar al model més que només invocacions correctes d'API; ha d'abastar tot l'espectre dels comportaments requerits de l'agent.

El nostre enfocament va implicar la generació de 1.500 exemples d'entrenament sintètics utilitzant Kiro, l'IDE d'Amazon impulsat per IA. Aquests exemples cobrien cinc esquemes d'eines diferents: get_weather_forecast, search_flights, translate_text, currency_convert i get_statistics. Crucialment, les dades es van distribuir entre tres comportaments principals de l'agent per garantir un aprenentatge equilibrat:

Comportament	Descripció	Percentatge	Exemple de veritat fonamental
Executar	L'usuari proporciona tots els paràmetres necessaris, el model hauria de cridar una eina.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Aclarir	A la sol·licitud de l'usuari falten paràmetres requerits, el model hauria de demanar aclariments.	25%	`Per proporcionar-li la informació meteorològica, podria especificar la ubicació?`
Rebutjar	La sol·licitud és perjudicial o està fora de l'abast, el model hauria de rebutjar-la educadament.	15%	`Ho sento, no puc complir amb aquesta sol·licitud.`

Cada exemple d'entrenament seguia un format JSONL, incloent un prompt (instrucció del sistema i sol·licitud de l'usuari) i un ground_truth al camp reward_model contra el qual puntua la funció de recompensa. La variació de la fraseologia entre formal, casual i concís va millorar encara més la robustesa del conjunt de dades. Mentre que les dades sintètiques proporcionen un punt de partida pràctic, les organitzacions amb fluxos de treball agentius existents poden aprofitar prompts d'usuari reals i crides d'eines dels registres de producció per aconseguir un entrenament de qualitat encara més alta. Aquesta preparació de dades és un pas crític en l'enginyeria de prompt per a comportaments complexos de l'agent.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

Ajustament de Qwen 2.5 7B Instruct amb SageMaker AI

El procés d'ajustament d'un model com Qwen 2.5 7B Instruct dins d'Amazon SageMaker AI Studio és simplificat i intuïtiu. Després d'assegurar que es compleixen els requisits previs necessaris (compte d'AWS, rol IAM, domini de SageMaker AI, bucket S3), els usuaris poden navegar a la secció de Models a SageMaker AI Studio.

A partir d'aquí, seleccionar Qwen 2.5 7B Instruct i escollir Personalitzar amb la IU obre una pàgina de configuració dedicada. Aquesta interfície permet:

Selecció de tècnica: Escollir explícitament l'Aprenentatge per Reforç amb Recompenses Verificables (RLVR) del menú desplegable.
Entrada de dades: Apuntar a les dades d'entrenament preparades emmagatzemades en un bucket d'Amazon S3.
Funció de recompensa: Configurar el mecanisme de puntuació per nivells que defineix com s'avaluen les respostes candidates en funció del ground_truth.
Configuració d'hiperparàmetres: Ajustar paràmetres com la mida del lot, tot i que SageMaker AI sovint gestiona la configuració òptima automàticament.

SageMaker AI admet una àmplia gamma de famílies de models, incloent Amazon Nova, GPT-OSS, Llama, Qwen i DeepSeek, juntament amb diverses tècniques com l'Ajustament Supervisat (SFT), l'Optimització de Preferència Directa (DPO), RLVR i l'Aprenentatge per Reforç a partir de la Retroalimentació d'IA (RLAIF). El seguiment integrat de MLflow proporciona visibilitat de les mètriques d'entrenament i validació, simplificant la supervisió del rendiment i la iteració. Aquesta facilitat d'ús accelera dràsticament el cicle de vida del desenvolupament per als desenvolupadors que construeixen fluxos de treball agentius de GitHub sofisticats.

Avaluació i èxit en el desplegament

L'eficàcia del nostre model Qwen 2.5 7B Instruct ajustat es va avaluar rigorosament amb dades retingudes, incloent escenaris amb eines no vistes completament —una prova crucial per a la generalització. Els resultats van ser convincents: el model ajustat va aconseguir una millora notable del 57% en la recompensa de la crida d'eines en comparació amb el model base. Aquest salt significatiu en el rendiment en escenaris que no havia trobat durant l'entrenament subratlla el poder de RLVR per ensenyar als models habilitats robustes de presa de decisions per a la interacció amb eines.

Aquesta fiabilitat millorada es tradueix directament en una major confiança en el desplegament d'agents d'IA en entorns de producció. Minimizant els casos d'hallucination d'eines, paràmetres incorrectes i accions inadequades, les empreses poden aprofitar els agents d'IA per a tasques més crítiques i sensibles. Amb SageMaker AI gestionant les complexitats del desplegament de models i la gestió de la infraestructura, els desenvolupadors poden passar sense problemes de l'ajustament a la producció, realitzant tot el potencial de les seves solucions d'IA agentiva. Aquesta capacitat s'alinea amb la visió més àmplia d'operacionalitzar la IA agentiva per a un impacte en el món real.

En resum, la combinació de la personalització de models sense servidor d'Amazon SageMaker AI i les robustes capacitats d'aprenentatge de RLVR proporciona un camí potent per construir sistemes de crida d'eines agentives altament fiables. Aquest enfocament innovador accelera el desenvolupament, redueix la càrrega operativa i, en última instància, proporciona agents d'IA que funcionen amb una precisió i fiabilitat sense precedents.

SageMaker AI: Accelerant la crida d'eines agentives amb personalització sense servidor

SageMaker AI: Accelerant la crida d'eines agentives amb personalització sense servidor

La promesa i els perills de la crida d'eines agentives

Personalització de models sense servidor: l'avantatge de SageMaker AI

Per què RLVR destaca per a la crida d'eines agentives

Preparació de dades d'entrenament d'alta qualitat per a RLVR

Ajustament de Qwen 2.5 7B Instruct amb SageMaker AI

Avaluació i èxit en el desplegament

Preguntes freqüents

Manteniu-vos al dia