SageMaker AI: Accelerant la crida d'eines agentives amb personalització sense servidor
La IA agentiva ha revolucionat la nostra manera de pensar sobre les tasques automatitzades, permetent als sistemes prendre decisions i interactuar amb el món mitjançant eines especialitzades. Tanmateix, la veritable utilitat dels agents d'IA en producció depèn de la seva capacitat per realitzar de manera fiable la crida d'eines agentives. Així és com els agents consulten bases de dades, activen fluxos de treball complexos, recuperen dades en temps real i actuen amb decisió en nom d'un usuari. Malauradament, un obstacle comú per a l'adopció generalitzada ha estat la tendència dels models de llenguatge grans (LLMs) base a hallucinar eines, passar paràmetres incorrectes o intentar accions quan calen aclariments. Aquests errors erosionen la confiança i dificulten significativament el desplegament en producció.
Amazon SageMaker AI s'està posant a la feina per resoldre aquests reptes crítics. Oferint personalització de models sense servidor, els desenvolupadors poden ajustar els LLMs per a una crida d'eines agentives robusta sense la típica sobrecàrrega operativa. Al centre d'aquesta innovació hi ha l'Aprenentatge per Reforç amb Recompenses Verificables (RLVR), una tècnica que permet als models generar i validar les seves pròpies respostes, aprenent a afavorir les interaccions exitoses amb les eines. Aquesta publicació aprofundeix en com SageMaker AI, utilitzant RLVR, millora dràsticament la fiabilitat dels agents, mostrant una millora del 57% en la recompensa de la crida d'eines en escenaris no vistos amb un model Qwen 2.5 7B Instruct ajustat.
La promesa i els perills de la crida d'eines agentives
El concepte d'agents d'IA interactuant amb sistemes externs mitjançant eines és una pedra angular de les aplicacions avançades d'IA. Imagineu un agent que pot reservar vols, resumir documents d'una base de dades o fins i tot executar codi basat en un prompt de llenguatge natural. Aquesta funcionalitat és precisament el que permet la crida d'eines agentives. Tanmateix, el camí cap a un ús fiable de les eines està ple de reptes.
Els LLMs base, tot i ser potents en la generació de llenguatge, sovint manquen de la comprensió matisada necessària per a una invocació precisa d'eines. Podrien inferir una eina que no existeix, malinterpretar la intenció de l'usuari portant a valors de paràmetres incorrectes o no reconèixer quan falta informació crítica. Aquests errors condueixen a experiències d'usuari frustrants i fan que el desplegament a nivell empresarial sigui arriscat. Per a les organitzacions que busquen operacionalitzar agents d'IA de manera efectiva, garantir una execució d'eines previsible i fiable és fonamental. Hi ha molt en joc, ja que els agents fiables poden desbloquejar nivells d'automatització i eficiència sense precedents, mentre que els poc fiables poden conduir a errors costosos i insatisfacció de l'usuari. Per això és essencial una optimització robusta de models per als fluxos de treball agentius, una tasca simplificada amb plataformes com SageMaker AI.
Personalització de models sense servidor: l'avantatge de SageMaker AI
L'enfocament tradicional per millorar el rendiment dels LLM sovint implica una gestió significativa de la infraestructura, des de l'adquisició de GPU i l'orquestració de memòria fins a una infraestructura de recompenses complexa i la creació de punts de control per a l'aprenentatge per reforç. Aquestes tasques introdueixen una sobrecàrrega operativa considerable, desviant recursos valuosos dels desenvolupadors de centrar-se en el problema principal: refinar el comportament del model.
La personalització de models sense servidor d'Amazon SageMaker AI elimina aquesta càrrega. Els desenvolupadors poden seleccionar un model fundacional (per exemple, Qwen, Llama, GPT-OSS), configurar una tècnica d'ajustament com RLVR, apuntar a les seves dades i definir una funció de recompensa. SageMaker AI gestiona tot el procés de backend, des de l'escalat de recursos de càlcul fins a la gestió de les fases d'entrenament i l'ajust de hiperparàmetres. Aquesta abstracció permet als equips concentrar-se en la qualitat del conjunt de dades i el disseny de la funció de recompensa, que són els veritables motors de la millora del model. Per a les empreses, aquest enfocament sense servidor es tradueix en cicles d'iteració més ràpids, costos reduïts i una barrera d'entrada més baixa per a la personalització avançada de LLM. És un canvi de paradigma per a aquells que busquen escalar la IA per a tothom simplificant processos complexos d'ajustament de LLMs.
Per què RLVR destaca per a la crida d'eines agentives
Quan es tracta d'ensenyar a un agent d'IA a utilitzar eines de manera fiable, no totes les tècniques d'ajustament són iguals. L'ajustament supervisat (SFT) requereix exemples meticulosament etiquetats per a cada comportament possible que hauria de mostrar un model: cridar una eina, demanar aclariments o rebutjar una sol·licitud. El repte amb SFT és la seva dificultat per generalitzar el procés de presa de decisions entre aquests comportaments diferents, sovint funcionant bé en patrons vistos durant l'entrenament, però fallant en escenaris nous.
L'Aprenentatge per Reforç amb Recompenses Verificables (RLVR) ofereix una solució més dinàmica i efectiva. A diferència de SFT, RLVR funciona amb un bucle de retroalimentació:
- Generació de candidates: Per a cada prompt, el model genera múltiples (per exemple, vuit) respostes potencials.
- Avaluació de la funció de recompensa: Una
funció de recompensapredefinida puntua objectivament cada candidata, indicant la seva qualitat, correcció i adherència al comportament desitjat (per exemple, ha cridat l'eina correcta amb els paràmetres correctes?). - Actualització de la política: Utilitzant l'Optimització de Política Relativa de Grup (GRPO), la política del model s'actualitza per reforçar les respostes que van obtenir una puntuació superior a la mitjana del grup generat. Aquest procés guia iterativament el model cap a un comportament més òptim.
Aquest aprenentatge iteratiu permet al model comprendre no només com realitzar una acció específica, sinó quan realitzar-la. Aprèn els matisos de distingir entre situacions on una crida a una eina és apropiada, cal aclariment o la negativa és el millor curs d'acció. Com que la crida d'eines té un objectiu naturalment verificable —si el model va cridar la funció correcta amb els paràmetres correctes—, s'adapta excepcionalment bé al paradigma RLVR, fent-lo ideal per a agents d'IA que requereixen alta fiabilitat. Aquest mètode aborda eficaçment el repte de dissenyar agents per resistir la injecció de prompts reforçant patrons d'acció precisos.
Preparació de dades d'entrenament d'alta qualitat per a RLVR
L'èxit de qualsevol esforç d'ajustament, especialment amb RLVR, depèn de la qualitat i l'exhaustivitat de les dades d'entrenament. Per a la crida d'eines agentives, el conjunt de dades ha d'ensenyar al model més que només invocacions correctes d'API; ha d'abastar tot l'espectre dels comportaments requerits de l'agent.
El nostre enfocament va implicar la generació de 1.500 exemples d'entrenament sintètics utilitzant Kiro, l'IDE d'Amazon impulsat per IA. Aquests exemples cobrien cinc esquemes d'eines diferents: get_weather_forecast, search_flights, translate_text, currency_convert i get_statistics. Crucialment, les dades es van distribuir entre tres comportaments principals de l'agent per garantir un aprenentatge equilibrat:
| Comportament | Descripció | Percentatge | Exemple de veritat fonamental |
|---|---|---|---|
| Executar | L'usuari proporciona tots els paràmetres necessaris, el model hauria de cridar una eina. | 60% | [{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}] |
| Aclarir | A la sol·licitud de l'usuari falten paràmetres requerits, el model hauria de demanar aclariments. | 25% | Per proporcionar-li la informació meteorològica, podria especificar la ubicació? |
| Rebutjar | La sol·licitud és perjudicial o està fora de l'abast, el model hauria de rebutjar-la educadament. | 15% | Ho sento, no puc complir amb aquesta sol·licitud. |
Cada exemple d'entrenament seguia un format JSONL, incloent un prompt (instrucció del sistema i sol·licitud de l'usuari) i un ground_truth al camp reward_model contra el qual puntua la funció de recompensa. La variació de la fraseologia entre formal, casual i concís va millorar encara més la robustesa del conjunt de dades. Mentre que les dades sintètiques proporcionen un punt de partida pràctic, les organitzacions amb fluxos de treball agentius existents poden aprofitar prompts d'usuari reals i crides d'eines dels registres de producció per aconseguir un entrenament de qualitat encara més alta. Aquesta preparació de dades és un pas crític en l'enginyeria de prompt per a comportaments complexos de l'agent.
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get weather for San Francisco"}
],
"reward_model": {
"ground_truth": "[{\"name\": \"get_weather_forecast\", \"arguments\": {\"city\": \"San Francisco\"}}]"
}
}
{
"prompt": [
{"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
{"role": "user", "content": "Get the weather"}
],
"reward_model": {
"ground_truth": "To provide you with the weather information, could you please specify the location?"
}
}
Ajustament de Qwen 2.5 7B Instruct amb SageMaker AI
El procés d'ajustament d'un model com Qwen 2.5 7B Instruct dins d'Amazon SageMaker AI Studio és simplificat i intuïtiu. Després d'assegurar que es compleixen els requisits previs necessaris (compte d'AWS, rol IAM, domini de SageMaker AI, bucket S3), els usuaris poden navegar a la secció de Models a SageMaker AI Studio.
A partir d'aquí, seleccionar Qwen 2.5 7B Instruct i escollir Personalitzar amb la IU obre una pàgina de configuració dedicada. Aquesta interfície permet:
- Selecció de tècnica: Escollir explícitament l'
Aprenentatge per Reforç amb Recompenses Verificables (RLVR)del menú desplegable. - Entrada de dades: Apuntar a les dades d'entrenament preparades emmagatzemades en un bucket d'Amazon S3.
- Funció de recompensa: Configurar el mecanisme de puntuació per nivells que defineix com s'avaluen les respostes candidates en funció del
ground_truth. - Configuració d'hiperparàmetres: Ajustar paràmetres com la mida del lot, tot i que SageMaker AI sovint gestiona la configuració òptima automàticament.
SageMaker AI admet una àmplia gamma de famílies de models, incloent Amazon Nova, GPT-OSS, Llama, Qwen i DeepSeek, juntament amb diverses tècniques com l'Ajustament Supervisat (SFT), l'Optimització de Preferència Directa (DPO), RLVR i l'Aprenentatge per Reforç a partir de la Retroalimentació d'IA (RLAIF). El seguiment integrat de MLflow proporciona visibilitat de les mètriques d'entrenament i validació, simplificant la supervisió del rendiment i la iteració. Aquesta facilitat d'ús accelera dràsticament el cicle de vida del desenvolupament per als desenvolupadors que construeixen fluxos de treball agentius de GitHub sofisticats.
Avaluació i èxit en el desplegament
L'eficàcia del nostre model Qwen 2.5 7B Instruct ajustat es va avaluar rigorosament amb dades retingudes, incloent escenaris amb eines no vistes completament —una prova crucial per a la generalització. Els resultats van ser convincents: el model ajustat va aconseguir una millora notable del 57% en la recompensa de la crida d'eines en comparació amb el model base. Aquest salt significatiu en el rendiment en escenaris que no havia trobat durant l'entrenament subratlla el poder de RLVR per ensenyar als models habilitats robustes de presa de decisions per a la interacció amb eines.
Aquesta fiabilitat millorada es tradueix directament en una major confiança en el desplegament d'agents d'IA en entorns de producció. Minimizant els casos d'hallucination d'eines, paràmetres incorrectes i accions inadequades, les empreses poden aprofitar els agents d'IA per a tasques més crítiques i sensibles. Amb SageMaker AI gestionant les complexitats del desplegament de models i la gestió de la infraestructura, els desenvolupadors poden passar sense problemes de l'ajustament a la producció, realitzant tot el potencial de les seves solucions d'IA agentiva. Aquesta capacitat s'alinea amb la visió més àmplia d'operacionalitzar la IA agentiva per a un impacte en el món real.
En resum, la combinació de la personalització de models sense servidor d'Amazon SageMaker AI i les robustes capacitats d'aprenentatge de RLVR proporciona un camí potent per construir sistemes de crida d'eines agentives altament fiables. Aquest enfocament innovador accelera el desenvolupament, redueix la càrrega operativa i, en última instància, proporciona agents d'IA que funcionen amb una precisió i fiabilitat sense precedents.
Preguntes freqüents
What is agentic tool calling and why is it crucial for AI agents?
What are the common challenges AI agents face when performing tool calls?
How does Amazon SageMaker AI address the challenges of agentic tool calling?
What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?
Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?
How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?
What agent behaviors are critical for building robust and reliable tool-calling AI agents?
What prerequisites are needed to use serverless model customization in SageMaker AI?
Manteniu-vos al dia
Rebeu les últimes notícies d'IA al correu.
