What is the Model Context Protocol (MCP) and how does it relate to AI agents?

The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.

Why is designing tools specifically for non-deterministic AI agents different from traditional software development?

Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.

What are the critical steps in evaluating the performance of AI agent tools?

Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.

How can AI agents like Claude optimize their own tools?

Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.

What are the key principles for writing high-quality tools for AI agents?

Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Agent工具：通过Claude优化提升AI性能

title: "Agent工具：通过Claude优化提升AI性能" slug: "writing-tools-for-agents" date: "2026-03-08" lang: "zh" source: "https://www.anthropic.com/engineering/writing-tools-for-agents" category: "开发者工具" keywords:

AI智能体
LLM工具
Anthropic Claude
工具优化
智能体AI系统
模型上下文协议 (MCP)
工具评估
提示工程
开发者工具
AI性能
非确定性系统
软件开发 meta_description: "探索如何利用Anthropic Claude编写和优化高质量的AI智能体工具。了解构建原型、全面评估以及智能体协作，以提升AI性能。" image: "/images/articles/writing-tools-for-agents.png" image_alt: "使用Claude Code评估和优化AI智能体工具以提升性能的插图。" quality_score: 94 content_score: 93 seo_score: 95 companies:
Anthropic schema_type: "NewsArticle" reading_time: 7 faq:
question: "什么是模型上下文协议（MCP），它与AI智能体有何关系？" answer: "模型上下文协议（MCP）是一个旨在通过为大型语言模型（LLM）智能体提供访问数百种工具的能力，从而赋能它们解决复杂现实世界任务的框架。它定义了一种标准化方式，让智能体能够与外部系统和数据源进行交互，改变了AI智能体利用确定性软件的方式。智能体不再仅仅依赖其内部知识，MCP允许它们使用专门的工具，就像人类使用各种应用程序或参考资料来完成任务一样，从而显著扩展了它们在不同领域的各项能力和效率。"
question: "为什么专门为非确定性AI智能体设计工具与传统软件开发不同？" answer: "传统的软件开发通常涉及在确定性系统之间创建契约，即给定相同的输入总是产生相同的可预测输出。然而，AI智能体是非确定性的，这意味着即使在相同的初始条件下，它们的响应也可能有所不同。这种根本性的差异要求重新思考工具设计。与假设精确、静态的交互不同，为AI智能体设计的工具必须足够健壮，以处理多样的智能体推理、潜在的误解甚至幻觉。目标是使工具对智能体而言是“符合人体工程学的”，促进它们多样化的解决问题策略，这通常也导致对人类用户而言出奇直观的工具。"
question: "评估AI智能体工具性能的关键步骤是什么？" answer: "评估AI智能体工具涉及一个系统性方法，首先要生成一系列多样化的现实世界评估任务。这些任务应足够复杂，以对工具进行压力测试，可能需要多次调用工具。接下来，评估以编程方式运行，通常使用智能体循环来模拟智能体如何与工具交互。收集的关键指标包括准确性、总运行时间、工具调用次数、令牌消耗和工具错误。最后，分析结果包括让智能体提供推理和反馈，审查原始记录，并识别工具使用或错误中的模式，以找出工具描述、模式或实现中需要改进的领域。"
question: "AI智能体（如Claude）如何优化自身的工具？" answer: "Anthropic展示了AI智能体，特别是像Claude Code这样的模型，可以在优化其所使用的工具方面发挥关键作用。这通过向智能体提供工具评估的记录和结果来实现。Claude可以分析这些交互，识别效率低下、不一致或工具描述不清晰的区域，并提出重构建议。例如，它可以确保工具实现和描述在更改后保持一致，或建议调整参数以提高令牌效率。这种协作方法利用了智能体的分析能力，持续改进其工具集的质量和易用性，从而提升性能。"
question: "为AI智能体编写高质量工具的关键原则是什么？" answer: "有几个核心原则指导为AI智能体创建有效工具。首先，明智地选择要实现的工具（以及要省略的工具）对于智能体的清晰度和效率至关重要。其次，对工具进行清晰的命名空间定义，明确其功能边界，减少智能体的歧义。第三，工具应向智能体返回有意义且简洁的上下文，帮助它们做出决策。第四，优化工具响应以提高令牌效率对于管理LLM交互中的成本和处理速度至关重要。最后，对工具描述和规范进行细致的提示工程，确保智能体准确理解和利用每个工具的用途和功能，从而最大限度地减少错误并提高效率。"


## 工具在AI智能体性能中的关键作用

在快速发展的AI领域，智能体的效能很大程度上取决于其所使用工具的质量和实用性。随着人工智能模型的能力日益增强，使其能够执行复杂的、多步骤的任务，它们通过“工具”与外部系统互动的方式变得至关重要。AI研发领域的领导者Anthropic分享了关于如何构建、评估乃至优化这些工具的关键见解，从而显著提升智能体性能。

这一方法的核心是模型上下文协议（MCP），一个旨在赋能大型语言模型（LLM）智能体访问广泛功能集合的系统。然而，仅仅提供工具是不够的；它们必须发挥最大的效用。本文深入探讨了Anthropic改进智能体AI系统的成熟技术，着重介绍了像Claude这样的AI模型如何协同完善自己的工具集。从最初的概念到优化工具的整个过程涉及原型设计、严格评估以及与智能体本身的协作反馈循环。

## 理解AI智能体工具：软件的新范式

传统上，软件开发遵循确定性原则：给定相同的输入，函数总是产生相同的输出。例如，一个简单的`getWeather("NYC")`调用，它会以相同的方式持续获取纽约市的天气。然而，AI智能体，例如Anthropic的Claude，作为*非确定性*系统运行。这意味着即使在相同的初始条件下，它们的响应也可能有所不同。

这种根本性差异要求在为智能体设计软件时进行范式转变。AI智能体工具不仅仅是供其他开发者使用的函数或API；它们是为智能但有时不可预测的实体设计的接口。当用户询问“我今天需要带伞吗？”时，智能体可能会调用天气工具、使用一般知识，甚至要求澄清位置。偶尔，智能体可能会产生幻觉或未能正确理解如何使用工具。

因此，目标是增加智能体能够发挥作用的“表面积”。这意味着创建的工具不仅要强大，而且对智能体来说也要“符合人体工程学”。有趣的是，Anthropic的经验表明，那些考虑到智能体非确定性性质而设计的工具，往往对人类来说也出奇地直观和易于理解。这种工具开发视角是释放[Claude Opus](/zh/claude-opus-4-6)或[Claude Sonnet](/zh/claude-sonnet-4-6)等复杂模型在实际应用中全部潜力的关键。

## 开发高效AI工具：从原型到优化

创建高效AI智能体工具的过程是一个迭代的构建、测试和完善过程。Anthropic强调亲身实践的方法，从快速原型设计开始，然后转向全面评估。

### 构建快速原型

在没有实践经验的情况下，预测智能体将如何与工具交互可能具有挑战性。第一步是快速搭建一个原型。如果开发者正在利用像[Claude Code](https://www.anthropic.com/claude-code)这样的智能体来创建工具，那么为任何底层软件库、API或SDK（包括MCP SDK）提供结构良好的文档至关重要。在官方文档网站上常见的扁平化‘llms.txt’文件尤其适合LLM。

这些原型可以封装在本地MCP服务器或桌面扩展（DXT）中，以便在Claude Code或Claude桌面应用程序中进行本地测试。对于编程测试，工具也可以直接传递到Anthropic API调用中。这个初始阶段鼓励开发者亲自测试工具，收集用户反馈，并围绕工具预期处理的用例和提示建立直觉。

### 运行全面评估

一旦原型功能完善，下一个关键步骤是通过系统评估来衡量智能体使用这些工具的有效性。

#### 生成评估任务

评估任务应受到实际用户查询的启发，并利用真实的数据源。重要的是要避免过于简单的“沙盒”环境，因为它们无法充分压力测试工具的复杂性。强大的评估任务通常需要智能体进行多次工具调用才能达到解决方案。

| 任务类型 | 强示例 | 弱示例 |
| :-------- | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | :----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **会议安排** | "下周与Jane安排一次会议，讨论我们最新的Acme Corp项目。附上我们上次项目规划会议的笔记并预订一个会议室。" | "下周与jane@acme.corp安排一次会议。" |
| **客户服务** | "客户ID 9182报告称他们单次购买尝试被收取了三次费用。查找所有相关日志条目，并确定是否有其他客户受到相同问题的影响。" | "在支付日志中搜索'purchase_complete'和'customer_id=9182'。" |
| **留存分析** | "客户Sarah Chen刚刚提交了取消请求。准备一份留存方案。确定：(1) 他们离开的原因，(2) 哪种留存方案最具吸引力，以及 (3) 在提出方案前我们应该注意的任何风险因素。" | "查找客户ID 45892的取消请求。" |

每个提示都应与可验证的响应或结果配对。验证器可以从简单的字符串比较到更高级的评估，例如让智能体来判断响应。避免过于严格的验证器至关重要，因为它们可能会因为微小的格式差异而拒绝有效响应。开发人员可以选择指定预期的工具调用，但应谨慎操作，以避免过度指定或过度拟合特定策略，因为智能体可能会找到多种有效的解决方案路径。

#### 以编程方式运行评估

Anthropic建议使用简单的智能体循环（例如，在LLM API和工具调用之间交替的`while`循环）内的直接LLM API调用，以编程方式运行评估。每个评估智能体都会获得一个单一的任务提示和工具。在这些智能体的系统提示中，建议指示它们在工具调用和响应块*之前*输出结构化的响应块（用于验证）、推理和反馈块。这鼓励了思维链（CoT）行为，提升了LLM的有效智能。Claude的“交错思维”功能开箱即用，提供了关于智能体为何做出特定工具选择的见解。

除了顶层准确性之外，收集总运行时间、工具调用次数、令牌消耗和工具错误等指标也至关重要。跟踪工具调用可以揭示常见的智能体工作流程，从而为工具整合或优化提供机会。

## 利用AI优化工具：Claude的协作方法

分析评估结果是一个关键阶段。智能体本身在此过程中可以是宝贵的合作伙伴，发现问题并提供反馈。然而，它们的反馈并非总是明确的；它们*省略*的内容可能与它们*包含*的内容一样具有启发性。开发者应仔细审查智能体推理（CoT）、查阅原始记录（包括工具调用和响应），并分析工具调用指标。例如，冗余的工具调用可能表明需要调整分页或令牌限制，而由于参数无效导致的频繁错误则可能表明工具描述不清晰。

Anthropic的一个显著例子是Claude的网络搜索工具，它不必要地在查询中添加了‘2025’，从而导致结果出现偏差。改进工具描述是引导Claude走向正确方向的关键。

Anthropic方法论中最具创新性的一点是让智能体分析它们*自己的*结果并改进它们所用工具的能力。通过将评估记录串联起来并输入到Claude Code中，开发者可以利用Claude在分析复杂交互和重构工具方面的专业知识。Claude擅长确保工具实现和描述之间的一致性，即使在多次更改之后也是如此。这种强大的反馈循环意味着Anthropic自身关于工具开发的许多建议，正是通过这种智能体辅助优化过程生成和完善的，这也呼应了软件开发中[智能体工作流](/zh/github-agentic-workflows)日益增长的趋势。

## 高质量智能体工具开发的关键原则

通过广泛的实验和智能体驱动的优化，Anthropic已经确定了为AI智能体打造高质量工具的几个核心原则：

1.  **战略性工具选择：** 明智地选择要实现的工具，更重要的是，选择不实现的工具。用不必要的工具使智能体过载会导致混淆和效率低下。
2.  **清晰的命名空间：** 通过有效的命名空间，为每个工具定义清晰的边界和功能。这有助于智能体理解每项能力的精确范围和目的。
3.  **返回有意义的上下文：** 工具应向智能体返回简洁且相关的上下文，从而在不提供冗长或无关信息的情况下，支持智能体做出明智的决策。
4.  **令牌效率优化：** 优化工具响应以提高令牌效率。在LLM交互中，每个令牌都对成本和处理速度至关重要。
5.  **精确的提示工程：** 精心进行工具描述和规范的提示工程。清晰、明确的指令对于智能体正确理解和利用工具至关重要。

通过遵循这些原则并采纳迭代的、智能体辅助的开发周期，开发者可以构建出健壮、高效且极具效用的工具，显著提升AI智能体的性能和能力，从而突破这些智能系统所能达到的极限。

Agent工具：通过Claude优化提升AI性能

常见问题

保持更新