Code Velocity
Herramientas para Desarrolladores

SageMaker AI: Acelerando la Llamada a Herramientas Agenciales con Personalización sin Servidor

·5 min de lectura·AWS·Fuente original
Compartir
Interfaz de Amazon SageMaker AI Studio que muestra opciones para la personalización de modelos sin servidor y la llamada a herramientas agenciales.

SageMaker AI: Acelerando la Llamada a Herramientas Agenciales con Personalización sin Servidor

La IA agencial ha revolucionado nuestra forma de concebir las tareas automatizadas, permitiendo a los sistemas tomar decisiones e interactuar con el mundo a través de herramientas especializadas. Sin embargo, la verdadera utilidad de los agentes de IA en producción depende de su capacidad para realizar de manera fiable la llamada a herramientas agenciales. Así es como los agentes consultan bases de datos, activan flujos de trabajo complejos, recuperan datos en tiempo real y actúan de forma decisiva en nombre de un usuario. Lamentablemente, un obstáculo común para la adopción generalizada ha sido la tendencia de los modelos de lenguaje grandes (LLMs) base a alucinar herramientas, pasar parámetros incorrectos o intentar acciones cuando se necesita una aclaración. Tales fallos erosionan la confianza y obstaculizan significativamente el despliegue en producción.

Amazon SageMaker AI está dando un paso adelante para resolver estos desafíos críticos. Al ofrecer personalización de modelos sin servidor, los desarrolladores pueden ajustar finamente los LLMs para una robusta llamada a herramientas agenciales sin la típica sobrecarga operativa. Central a esta innovación es el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), una técnica que empodera a los modelos para generar y validar sus propias respuestas, aprendiendo a favorecer interacciones exitosas con herramientas. Esta publicación profundiza en cómo SageMaker AI, utilizando RLVR, mejora drásticamente la fiabilidad del agente, mostrando una mejora del 57% en la recompensa de llamada a herramientas en escenarios no vistos con un modelo Qwen 2.5 7B Instruct ajustado finamente.

La Promesa y los Peligros de la Llamada a Herramientas Agenciales

El concepto de agentes de IA interactuando con sistemas externos a través de herramientas es una piedra angular de las aplicaciones avanzadas de IA. Imagine un agente que puede reservar vuelos, resumir documentos de una base de datos o incluso ejecutar código basado en un prompt de lenguaje natural. Esta funcionalidad es precisamente lo que permite la llamada a herramientas agenciales. Sin embargo, el camino hacia un uso fiable de las herramientas está plagado de desafíos.

Los LLMs base, si bien son potentes en la generación de lenguaje, a menudo carecen de la comprensión matizada necesaria para una invocación precisa de herramientas. Podrían inferir una herramienta que no existe, malinterpretar la intención del usuario dando lugar a valores de parámetros incorrectos o no reconocer cuándo falta información crítica. Estos errores conducen a experiencias de usuario frustrantes y hacen que el despliegue a nivel empresarial sea arriesgado. Para las organizaciones que buscan operacionalizar agentes de IA de manera efectiva, garantizar una ejecución predecible y confiable de las herramientas es primordial. Hay mucho en juego, ya que los agentes confiables pueden desbloquear niveles sin precedentes de automatización y eficiencia, mientras que los poco confiables pueden llevar a errores costosos e insatisfacción del usuario. Por eso, una optimización de modelos robusta para flujos de trabajo agenciales es esencial, una tarea simplificada con plataformas como SageMaker AI.

Personalización de Modelos sin Servidor: La Ventaja de SageMaker AI

El enfoque tradicional para mejorar el rendimiento de los LLMs a menudo implica una gestión significativa de la infraestructura, desde la adquisición de GPU y la orquestación de memoria hasta una compleja infraestructura de recompensas y el checkpointing para el aprendizaje por refuerzo. Estas tareas introducen una considerable sobrecarga operativa, desviando valiosos recursos de los desarrolladores de centrarse en el problema central: refinar el comportamiento del modelo.

La personalización de modelos sin servidor de Amazon SageMaker AI elimina esta carga. Los desarrolladores pueden seleccionar un modelo fundacional (por ejemplo, Qwen, Llama, GPT-OSS), configurar una técnica de ajuste fino como RLVR, apuntar a sus datos y definir una función de recompensa. SageMaker AI gestiona entonces todo el proceso backend, desde el escalado de recursos computacionales hasta la gestión de las fases de entrenamiento y el ajuste de hiperparámetros. Esta abstracción permite a los equipos concentrarse en la calidad del conjunto de datos y el diseño de la función de recompensa, que son los verdaderos motores de la mejora del modelo. Para las empresas, este enfoque sin servidor se traduce en ciclos de iteración más rápidos, costos reducidos y una barrera de entrada más baja para la personalización avanzada de LLMs. Es un cambio de juego para aquellos que buscan escalar la IA para todos simplificando los complejos procesos de ajuste fino de LLMs.

Por Qué RLVR Sobresale en la Llamada a Herramientas Agenciales

Cuando se trata de enseñar a un agente de IA a usar herramientas de manera fiable, no todas las técnicas de ajuste fino son iguales. El Ajuste Fino Supervisado (SFT) requiere ejemplos meticulosamente etiquetados para cada posible comportamiento que un modelo debería exhibir: llamar a una herramienta, pedir una aclaración o rechazar una solicitud. El desafío con SFT es su dificultad para generalizar el proceso de toma de decisiones entre estos comportamientos distintos, a menudo funcionando bien en patrones vistos durante el entrenamiento pero fallando en escenarios novedosos.

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ofrece una solución más dinámica y efectiva. A diferencia de SFT, RLVR opera en un bucle de retroalimentación:

  1. Generación de Candidatos: Para cada prompt, el modelo genera múltiples (por ejemplo, ocho) respuestas potenciales.
  2. Evaluación de la Función de Recompensa: Una función de recompensa predefinida puntúa objetivamente cada candidato, indicando su calidad, corrección y adherencia al comportamiento deseado (por ejemplo, ¿llamó a la herramienta correcta con los parámetros correctos?).
  3. Actualización de la Política: Utilizando la Optimización de Política Relativa de Grupo (GRPO), la política del modelo se actualiza para reforzar las respuestas que obtuvieron una puntuación superior al promedio del grupo generado. Este proceso guía iterativamente al modelo hacia un comportamiento más óptimo.

Este aprendizaje iterativo permite al modelo comprender no solo cómo realizar una acción específica, sino cuándo realizarla. Aprende los matices para distinguir entre situaciones en las que una llamada a una herramienta es apropiada, se necesita aclaración o la negativa es el mejor curso de acción. Debido a que la llamada a herramientas tiene un objetivo naturalmente verificable —si el modelo llamó a la función correcta con los parámetros correctos—, se adapta excepcionalmente bien al paradigma RLVR, haciéndolo ideal para agentes de IA que requieren alta fiabilidad. Este método aborda eficazmente el desafío de diseñar agentes para resistir la inyección de prompts al reforzar patrones de acción precisos.

Preparación de Datos de Entrenamiento de Alta Calidad para RLVR

El éxito de cualquier esfuerzo de ajuste fino, especialmente con RLVR, depende de la calidad y la exhaustividad de los datos de entrenamiento. Para la llamada a herramientas agenciales, el conjunto de datos debe enseñar al modelo más que solo invocaciones correctas de API; necesita abarcar todo el espectro de comportamientos requeridos del agente.

Nuestro enfoque implicó la generación de 1.500 ejemplos de entrenamiento sintéticos utilizando Kiro, el IDE impulsado por IA de Amazon. Estos ejemplos cubrieron cinco esquemas de herramientas distintos: get_weather_forecast, search_flights, translate_text, currency_convert y get_statistics. Crucialmente, los datos se distribuyeron entre tres comportamientos principales del agente para garantizar un aprendizaje equilibrado:

ComportamientoDescripciónPorcentajeEjemplo de Verdad Fundamental
EjecutarEl usuario proporciona todos los parámetros necesarios, el modelo debe llamar a una herramienta.60%[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]
AclararA la solicitud del usuario le faltan parámetros requeridos, el modelo debe pedir una aclaración.25%Para proporcionarle la información meteorológica, ¿podría especificar la ubicación?
RechazarLa solicitud es perjudicial o está fuera de alcance, el modelo debe rechazarla amablemente.15%Lo siento, no puedo cumplir esa solicitud.

Cada ejemplo de entrenamiento seguía un formato JSONL, incluyendo un prompt (instrucción del sistema y solicitud del usuario) y una ground_truth en el campo reward_model contra la cual la función de recompensa puntúa. La variación del fraseo entre formal, casual y conciso mejoró aún más la robustez del conjunto de datos. Si bien los datos sintéticos proporcionan un punto de partida práctico, las organizaciones con flujos de trabajo agenciales existentes pueden aprovechar los prompts de usuario reales y las llamadas a herramientas de los registros de producción para lograr una calidad de entrenamiento aún mayor. Esta preparación de datos es un paso crítico en la ingeniería de prompts para comportamientos complejos de agentes.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}
{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

Ajuste Fino de Qwen 2.5 7B Instruct con SageMaker AI

El proceso de ajuste fino de un modelo como Qwen 2.5 7B Instruct dentro de Amazon SageMaker AI Studio es optimizado e intuitivo. Después de asegurarse de que se cumplen los requisitos previos necesarios (cuenta de AWS, rol de IAM de AWS, dominio de SageMaker AI, bucket de S3), los usuarios pueden navegar a la sección Modelos en SageMaker AI Studio.

Desde allí, seleccionar Qwen 2.5 7B Instruct y elegir Personalizar con UI abre una página de configuración dedicada. Esta interfaz permite:

  • Selección de Técnica: Elegir explícitamente Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) del menú desplegable.
  • Entrada de Datos: Apuntar a los datos de entrenamiento preparados almacenados en un bucket de Amazon S3.
  • Función de Recompensa: Configurar el mecanismo de puntuación por niveles que define cómo se evalúan las respuestas candidatas contra la ground_truth.
  • Configuración de Hiperparámetros: Ajustar parámetros como el tamaño del lote, aunque SageMaker AI a menudo gestiona automáticamente la configuración óptima.

SageMaker AI soporta una amplia gama de familias de modelos, incluyendo Amazon Nova, GPT-OSS, Llama, Qwen y DeepSeek, junto con varias técnicas como Ajuste Fino Supervisado (SFT), Optimización de Preferencia Directa (DPO), RLVR y Aprendizaje por Refuerzo a partir de Retroalimentación de IA (RLAIF). El seguimiento integrado de MLflow proporciona visibilidad de las métricas de entrenamiento y validación, simplificando la monitorización del rendimiento y la iteración. Esta facilidad de uso acelera drásticamente el ciclo de vida de desarrollo para los desarrolladores que construyen sofisticados flujos de trabajo agenciales de GitHub.

Evaluación y Éxito del Despliegue

La eficacia de nuestro modelo Qwen 2.5 7B Instruct ajustado finamente fue evaluada rigurosamente con datos no vistos, incluyendo escenarios con herramientas completamente desconocidas —una prueba crucial para la generalización. Los resultados fueron convincentes: el modelo ajustado finamente logró una notable mejora del 57% en la recompensa por llamada a herramientas en comparación con el modelo base. Este salto significativo en el rendimiento en escenarios que no había encontrado durante el entrenamiento subraya el poder de RLVR para enseñar a los modelos habilidades robustas de toma de decisiones para la interacción con herramientas.

Esta fiabilidad mejorada se traduce directamente en una mayor confianza para desplegar agentes de IA en entornos de producción. Al minimizar las instancias de alucinaciones de herramientas, parámetros incorrectos y acciones inapropiadas, las empresas pueden aprovechar los agentes de IA para tareas más críticas y sensibles. Con SageMaker AI manejando las complejidades del despliegue de modelos y la gestión de infraestructura, los desarrolladores pueden pasar sin problemas del ajuste fino a la producción, realizando todo el potencial de sus soluciones de IA agenciales. Esta capacidad se alinea con la visión más amplia de operacionalizar la IA agencial para un impacto en el mundo real.

En resumen, la combinación de la personalización de modelos sin servidor de Amazon SageMaker AI y las robustas capacidades de aprendizaje de RLVR proporciona un camino poderoso para construir sistemas de llamada a herramientas agenciales altamente fiables. Este enfoque innovador acelera el desarrollo, reduce la carga operativa y, en última instancia, ofrece agentes de IA que rinden con una precisión y confiabilidad sin precedentes.

Preguntas Frecuentes

What is agentic tool calling and why is it crucial for AI agents?
Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.
What are the common challenges AI agents face when performing tool calls?
AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.
How does Amazon SageMaker AI address the challenges of agentic tool calling?
Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.
What prerequisites are needed to use serverless model customization in SageMaker AI?
To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

Mantente Actualizado

Recibe las últimas noticias de IA en tu correo.

Compartir