What is the Model Context Protocol (MCP) and how does it relate to AI agents?

The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.

Why is designing tools specifically for non-deterministic AI agents different from traditional software development?

Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.

What are the critical steps in evaluating the performance of AI agent tools?

Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.

How can AI agents like Claude optimize their own tools?

Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.

What are the key principles for writing high-quality tools for AI agents?

Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Eines d'Agent: Millorant el Rendiment de la IA amb l'Optimització de Claude

title: "Eines d'Agent: Millorant el Rendiment de la IA amb l'Optimització de Claude" slug: "writing-tools-for-agents" date: "2026-03-08" lang: "ca" source: "https://www.anthropic.com/engineering/writing-tools-for-agents" category: "Eines per a Desenvolupadors" keywords:

Agents d'IA
Eines LLM
Anthropic Claude
Optimització d'eines
Sistemes d'IA agentics
Model Context Protocol (MCP)
Avaluació d'eines
Enginyeria de prompts
Eines per a desenvolupadors
Rendiment de la IA
Sistemes no deterministes
Desenvolupament de programari meta_description: "Descobreix com escriure i optimitzar eines d'agent d'IA d'alta qualitat amb Anthropic Claude. Aprèn a construir prototips, realitzar avaluacions exhaustives i col·laborar amb agents per millorar el rendiment de la IA." image: "/images/articles/writing-tools-for-agents.png" image_alt: "Il·lustració de l'avaluació i optimització d'eines d'agent d'IA utilitzant Claude Code per a un rendiment millorat." quality_score: 94 content_score: 93 seo_score: 95 companies:
Anthropic schema_type: "NewsArticle" reading_time: 7 faq:
question: "Què és el Protocol de Context del Model (MCP) i com es relaciona amb els agents d'IA?" answer: "El Protocol de Context del Model (MCP) és un marc dissenyat per potenciar els agents de models de llenguatge grans (LLM) proporcionant-los accés a potencialment centenars d'eines, permetent-los resoldre tasques complexes del món real. Defineix una manera estandarditzada perquè els agents interactuïn amb sistemes externs i fonts de dades, transformant la manera com els agents d'IA poden aprofitar el programari determinista. En lloc que els agents es basin únicament en el seu coneixement intern, MCP els permet utilitzar eines especialitzades, de la mateixa manera que un humà utilitza diverses aplicacions o referències per completar tasques, expandint així significativament les seves capacitats i efectivitat en diversos dominis."
question: "Per què el disseny d'eines específicament per a agents d'IA no deterministes és diferent del desenvolupament de programari tradicional?" answer: "El desenvolupament de programari tradicional sol implicar la creació de contractes entre sistemes deterministes, on una entrada donada sempre produeix la mateixa sortida predictible. Els agents d'IA, però, són no deterministes, el que significa que les seves respostes poden variar fins i tot amb condicions inicials idèntiques. Aquesta diferència fonamental requereix repensar el disseny de les eines. En lloc de suposar interaccions precises i estàtiques, les eines per a agents d'IA han de ser prou robustes per gestionar raonaments agentics variats, possibles malentesos o fins i tot al·lucinacions. L'objectiu és fer les eines 'ergonòmiques' per als agents, facilitant les seves diverses estratègies de resolució de problemes, la qual cosa sovint resulta en eines sorprenentment intuïtives també per als usuaris humans."
question: "Quins són els passos clau per avaluar el rendiment de les eines d'agent d'IA?" answer: "L'avaluació de les eines d'agent d'IA implica un enfocament sistemàtic que comença amb la generació d'un conjunt divers de tasques d'avaluació del món real. Aquestes tasques han de ser prou complexes per posar a prova les eines, possiblement requerint múltiples crides a eines. A continuació, l'avaluació s'executa programàticament, normalment utilitzant bucles agentics que simulen com un agent interactuaria amb les eines. Les mètriques clau recopilades inclouen precisió, temps total d'execució, nombre de crides a eines, consum de tokens i errors de les eines. Finalment, l'anàlisi dels resultats implica que els agents proporcionin raonament i retroalimentació, revisin transcripcions en brut i identifiquin patrons d'ús o errors de les eines per identificar àrees de millora en les descripcions, esquemes o implementacions de les eines."
question: "Com poden els agents d'IA com Claude optimitzar les seves pròpies eines?" answer: "Anthropic demostra que els agents d'IA, particularment models com Claude Code, poden jugar un paper fonamental en l'optimització de les mateixes eines que utilitzen. Això s'aconsegueix alimentant l'agent amb transcripcions i resultats de les avaluacions d'eines. Claude pot llavors analitzar aquestes interaccions, identificar ineficiències, inconsistències o àrees on les descripcions de les eines no són clares, i suggerir refactoritzacions. Per exemple, pot assegurar que les implementacions i descripcions de les eines es mantinguin coherents després dels canvis o recomanar ajustos als paràmetres per a una millor eficiència de tokens. Aquest enfocament col·laboratiu aprofita les capacitats analítiques de l'agent per millorar contínuament la qualitat i l'ergonomia del seu conjunt d'eines, la qual cosa porta a un rendiment millorat."
question: "Quins són els principis clau per escriure eines d'alta qualitat per a agents d'IA?" answer: "Diversos principis fonamentals guien la creació d'eines efectives per als agents d'IA. En primer lloc, triar judiciosament quines eines implementar (i quines ometre) és crucial per a la claredat i eficiència de l'agent. En segon lloc, l'ús de noms d'espai clars per a les eines defineix les seves funcions de manera precisa, reduint l'ambigüitat per a l'agent. En tercer lloc, les eines han de retornar un context significatiu i concís als agents, ajudant-los en la presa de decisions. En quart lloc, optimitzar les respostes de les eines per a l'eficiència de tokens és vital per gestionar els costos i la velocitat de processament en les interaccions amb LLM. Finalment, l'enginyeria de prompts meticulosa de les descripcions i especificacions de les eines assegura que els agents entenguin i utilitzin amb precisió el propòsit i les capacitats de cada eina, minimitzant errors i maximitzant l'efectivitat."


## El Paper Crucial de les Eines en el Rendiment dels Agents d'IA

En el paisatge de la IA en ràpida evolució, l'eficàcia d'un agent intel·ligent depèn significativament de la qualitat i la utilitat de les eines que empra. A mesura que els models d'intel·ligència artificial són cada cop més capaços, permetent-los realitzar tasques complexes de múltiples passos, la manera com interactuen amb sistemes externs –mitjançant "eines"– esdevé primordial. Anthropic, líder en recerca i desenvolupament d'IA, ha compartit coneixements crucials sobre com construir, avaluar i fins i tot optimitzar aquestes eines, impulsant dràsticament el rendiment dels agents.

Al cor d'aquest enfocament hi ha el Protocol de Context del Model (MCP), un sistema dissenyat per potenciar els agents de models de llenguatge grans (LLM) amb accés a una vasta gamma de funcionalitats. No obstant això, simplement proporcionar eines no és suficient; han de ser màximament efectives. Aquest article aprofundeix en les tècniques provades d'Anthropic per millorar els sistemes d'IA agentics, destacant com els models d'IA com Claude poden refinar de manera col·laborativa els seus propis conjunts d'eines. El viatge des del concepte inicial fins a l'eina optimitzada implica el prototipatge, l'avaluació rigorosa i un bucle de retroalimentació col·laborativa amb l'agent mateix.

## Entenent les Eines dels Agents d'IA: Un Nou Paradigma per al Programari

Tradicionalment, el desenvolupament de programari opera segons principis deterministes: donada la mateixa entrada, una funció sempre produirà la mateixa sortida. Considereu una simple crida `getWeather("NYC")`; consistentment obté el temps de la ciutat de Nova York de manera idèntica. No obstant això, els agents d'IA, com el Claude d'Anthropic, operen com a sistemes *no deterministes*. Això significa que les seves respostes poden variar fins i tot sota condicions inicials idèntiques.

Aquesta diferència fonamental fa necessari un canvi de paradigma en el disseny de programari per a agents. Les eines per a agents d'IA no són només funcions o API per a altres desenvolupadors; són interfícies dissenyades per a una entitat intel·ligent, però de vegades imprevisible. Quan un usuari pregunta: "He de portar un paraigua avui?", un agent podria utilitzar una eina meteorològica, coneixements generals, o fins i tot demanar aclariments sobre la ubicació. Ocasionalment, els agents podrien al·lucinar o no entendre com utilitzar una eina correctament.

Per tant, l'objectiu és augmentar la "superfície" sobre la qual els agents poden ser efectius. Això significa crear eines que no només siguin robustes, sinó també "ergonòmiques" per als agents. Curiosament, l'experiència d'Anthropic mostra que les eines dissenyades tenint en compte la naturalesa no determinista d'un agent sovint resulten ser sorprenentment intuitives i fàcils de comprendre també per als humans. Aquesta perspectiva sobre el desenvolupament d'eines és clau per desbloquejar tot el potencial de models sofisticats com [Claude Opus](/ca/claude-opus-4-6) o [Claude Sonnet](/ca/claude-sonnet-4-6) en aplicacions del món real.

## Desenvolupament d'Eines d'IA Efectives: Del Prototip a l'Optimització

El viatge de creació d'eines d'agent d'IA efectives és un procés iteratiu de construcció, prova i refinament. Anthropic posa èmfasi en un enfocament pràctic, començant amb el prototipat ràpid i passant després a una avaluació exhaustiva.

### Construcció d'un Prototip Ràpid

Anticipar com interactuaran els agents amb les eines pot ser un repte sense experiència pràctica. El primer pas implica la ràpida implementació d'un prototip. Si els desenvolupadors estan aprofitant un agent com [Claude Code](https://www.anthropic.com/claude-code) per a la creació d'eines, és crucial proporcionar documentació ben estructurada per a qualsevol biblioteca de programari, API o SDK subjacent (inclòs l'SDK de MCP). Els fitxers 'llms.txt' plans, que sovint es troben als llocs web de documentació oficial, són especialment amigables amb els LLM.

Aquests prototips es poden encapsular en un servidor MCP local o una Extensió d'Escriptori (DXT) per facilitar les proves locals dins de Claude Code o l'aplicació Claude Desktop. Per a proves programàtiques, les eines també es poden passar directament a les crides de l'API d'Anthropic. Aquesta fase inicial anima els desenvolupadors a provar personalment les eines, recollir els comentaris dels usuaris i desenvolupar la intuïció sobre els casos d'ús esperats i els prompts que les eines han de gestionar.

### Realització d'una Avaluació Exhaustiva

Un cop el prototip és funcional, el següent pas crític és mesurar l'eficàcia amb què l'agent utilitza aquestes eines mitjançant una avaluació sistemàtica. Això implica generar una multitud de tasques d'avaluació basades en escenaris del món real.

#### Generació de Tasques d'Avaluació

Les tasques d'avaluació han d'estar inspirades en consultes d'usuaris reals i utilitzar fonts de dades realistes. És important evitar entorns "sandbox" simplistes que no posin a prova adequadament la complexitat de les eines. Les tasques d'avaluació sòlides sovint requereixen que els agents facin múltiples crides a eines per aconseguir una solució.

| Tipus de Tasca | Exemple Fort | Exemple Feble |
| :-------- | :-------- | :-------- |
| **Programació de Reunions** | "Programa una reunió amb la Jane la setmana que ve per discutir el nostre darrer projecte Acme Corp. Adjunta les notes de la nostra última reunió de planificació de projectes i reserva una sala de conferències." | "Programa una reunió amb jane@acme.corp la setmana que ve." |
| **Atenció al Client** | "El client amb ID 9182 va informar que se li va cobrar tres vegades per un sol intent de compra. Troba totes les entrades de registre rellevants i determina si altres clients es van veure afectats pel mateix problema." | "Cerca als registres de pagament 'purchase_complete' i 'customer_id=9182'." |
| **Anàlisi de Retenció** | "La clienta Sarah Chen acaba de presentar una sol·licitud de cancel·lació. Prepara una oferta de retenció. Determina: (1) per què marxa, (2) quina oferta de retenció seria la més convincent, i (3) quins factors de risc hem de tenir en compte abans de fer una oferta." | "Troba la sol·licitud de cancel·lació pel Client ID 45892." |

Cada prompt ha d'anar acompanyat d'una resposta o resultat verificable. Els verificadors poden anar des de simples comparacions de cadenes fins a avaluacions més avançades que utilitzen un agent per jutjar la resposta. És crucial evitar verificadors excessivament estrictes que puguin rebutjar respostes vàlides a causa de petites diferències de format. Opcionalment, els desenvolupadors poden especificar les crides a eines esperades, encara que això s'ha de fer amb cura per evitar la sobreespecificació o l'ajustament excessiu a estratègies particulars, ja que els agents podrien trobar múltiples camins vàlids per a una solució.

#### Execució de l'Avaluació de Manera Programàtica

Anthropic recomana executar les avaluacions de manera programàtica utilitzant crides directes a l'API de l'LLM dins de bucles agentics simples (per exemple, bucles `while` alternant entre l'API de l'LLM i les crides a eines). A cada agent d'avaluació se li proporciona un únic prompt de tasca i les eines. En els prompts del sistema per a aquests agents, és beneficiós instruir-los perquè generin blocs de resposta estructurats (per a la verificació), raonament i blocs de retroalimentació *abans* dels blocs de crida a eines i resposta. Això fomenta comportaments de cadena de pensament (CoT), augmentant la intel·ligència efectiva de l'LLM. La funció de "pensament entrellaçat" de Claude ofereix una funcionalitat similar de sèrie, proporcionant informació sobre per què els agents prenen decisions específiques sobre les eines.

Més enllà de la precisió de primer nivell, recollir mètriques com el temps total d'execució, el nombre de crides a eines, el consum de tokens i els errors d'eines és vital. El seguiment de les crides a eines pot revelar fluxos de treball comuns dels agents, suggerint oportunitats per a la consolidació o el refinament d'eines.

## Optimització d'Eines amb IA: L'Enfocament Col·laboratiu de Claude

L'anàlisi dels resultats de l'avaluació és una fase crítica. Els agents mateixos poden ser socis inestimables en aquest procés, detectant problemes i proporcionant retroalimentació. No obstant això, la seva retroalimentació no sempre és explícita; el que *ometen* pot ser tan revelador com el que *inclouen*. Els desenvolupadors haurien d'examinar el raonament de l'agent (CoT), revisar les transcripcions en brut (incloent les crides a eines i les respostes) i analitzar les mètriques de crida a eines. Per exemple, les crides a eines redundants podrien indicar la necessitat d'ajustar la paginació o els límits de tokens, mentre que els errors freqüents a causa de paràmetres no vàlids podrien indicar descripcions d'eines poc clares.

Un exemple notable d'Anthropic va ser l'eina de cerca web de Claude, on afegia innecessàriament '2025' a les consultes, esbiaixant els resultats. Millorar la descripció de l'eina va ser clau per guiar Claude en la direcció correcta.

L'aspecte més innovador de la metodologia d'Anthropic és la capacitat de permetre que els agents analitzin els seus *propis* resultats i millorin les seves eines. En concatenar les transcripcions d'avaluació i introduir-les a Claude Code, els desenvolupadors poden aprofitar l'expertesa de Claude per analitzar interaccions complexes i refactoritzar eines. Claude destaca per garantir la consistència entre les implementacions i descripcions de les eines, fins i tot a través de nombrosos canvis. Aquest potent bucle de retroalimentació significa que gran part dels propis consells d'Anthropic sobre el desenvolupament d'eines s'han generat i refinat mitjançant aquest mateix procés d'optimització assistida per agents, fent-se ressò de la tendència creixent dels [fluxos de treball agentics](/ca/github-agentic-workflows) en el desenvolupament de programari.

## Principis Clau per al Desenvolupament d'Eines d'Agent d'Alta Qualitat

A través d'una àmplia experimentació i optimització impulsada per agents, Anthropic ha identificat diversos principis fonamentals per crear eines d'alta qualitat per a agents d'IA:

1.  **Selecció Estratègica d'Eines:** Tria sàviament quines eines implementar i, de manera crítica, quines no. Sobrecàrrega un agent amb eines innecessàries pot portar a confusió i ineficiència.
2.  **Espais de Noms Clars:** Defineix límits i funcionalitats clares per a cada eina mitjançant un espai de noms efectiu. Això ajuda els agents a comprendre l'abast i el propòsit precisos de cada capacitat.
3.  **Retorn de Context Significatiu:** Les eines han de retornar un context concís i rellevant a l'agent, permetent una presa de decisions informada sense informació supèrflua o innecessària.
4.  **Optimització de l'Eficiència de Tokens:** Optimitza les respostes de les eines perquè siguin eficients en tokens. En les interaccions amb LLM, cada token és important tant per al cost com per a la velocitat de processament.
5.  **Enginyeria de Prompts Precisa:** Realitza una enginyeria de prompts meticulosa per a les descripcions i especificacions de les eines. Les instruccions clares i inequívoques són vitals perquè els agents interpretin i utilitzin correctament les eines.

Adherint-se a aquests principis i adoptant un cicle de desenvolupament iteratiu i assistit per agents, els desenvolupadors poden construir eines robustes, eficients i altament efectives que milloren significativament el rendiment i les capacitats dels agents d'IA, ampliant els límits del que aquests sistemes intel·ligents poden aconseguir.

Eines d'Agent: Millorant el Rendiment de la IA amb l'Optimització de Claude

Preguntes freqüents

Manteniu-vos al dia