What is the Model Context Protocol (MCP) and how does it relate to AI agents?

The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.

Why is designing tools specifically for non-deterministic AI agents different from traditional software development?

Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.

What are the critical steps in evaluating the performance of AI agent tools?

Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.

How can AI agents like Claude optimize their own tools?

Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.

What are the key principles for writing high-quality tools for AI agents?

Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Ferramentas de Agente: Aprimorando o Desempenho da IA com a Otimização de Claude

title: "Ferramentas de Agente: Aprimorando o Desempenho da IA com a Otimização de Claude" slug: "writing-tools-for-agents" date: "2026-03-08" lang: "pt" source: "https://www.anthropic.com/engineering/writing-tools-for-agents" category: "Ferramentas para Desenvolvedores" keywords:

agentes de IA
ferramentas LLM
Anthropic Claude
Otimização de ferramentas
Sistemas de IA agênticos
Protocolo de Contexto do Modelo (MCP)
Avaliação de ferramentas
Engenharia de prompts
Ferramentas para desenvolvedores
Desempenho de IA
Sistemas não determinísticos
Desenvolvimento de software meta_description: "Descubra como escrever e otimizar ferramentas de agente de IA de alta qualidade com Anthropic Claude. Aprenda a construir protótipos, realizar avaliações abrangentes e colaborar com agentes para um desempenho aprimorado da IA." image: "/images/articles/writing-tools-for-agents.png" image_alt: "Ilustração da avaliação e otimização de ferramentas de agente de IA usando Claude Code para um desempenho aprimorado." quality_score: 94 content_score: 93 seo_score: 95 companies:
Anthropic schema_type: "NewsArticle" reading_time: 7 faq:
question: "O que é o Protocolo de Contexto do Modelo (MCP) e como ele se relaciona com os agentes de IA?" answer: "O Protocolo de Contexto do Modelo (MCP) é um framework projetado para capacitar agentes de grandes modelos de linguagem (LLM) fornecendo-lhes acesso a potencialmente centenas de ferramentas, permitindo-lhes resolver tarefas complexas do mundo real. Ele define uma maneira padronizada para os agentes interagirem com sistemas externos e fontes de dados, transformando como os agentes de IA podem alavancar software determinístico. Em vez de os agentes confiarem apenas em seu conhecimento interno, o MCP permite que eles usem ferramentas especializadas, muito parecido com um humano que usa vários aplicativos ou referências para concluir tarefas, expandindo assim significativamente suas capacidades e eficácia em diversos domínios."
question: "Por que projetar ferramentas especificamente para agentes de IA não determinísticos é diferente do desenvolvimento de software tradicional?" answer: "O desenvolvimento de software tradicional geralmente envolve a criação de contratos entre sistemas determinísticos, onde uma dada entrada sempre produz a mesma saída previsível. Agentes de IA, no entanto, são não determinísticos, o que significa que suas respostas podem variar mesmo com condições iniciais idênticas. Essa diferença fundamental exige uma reformulação do design de ferramentas. Em vez de assumir interações precisas e estáticas, as ferramentas para agentes de IA devem ser robustas o suficiente para lidar com raciocínios agênticos variados, potenciais mal-entendidos ou até mesmo alucinações. O objetivo é tornar as ferramentas 'ergonômicas' para os agentes, facilitando suas diversas estratégias de resolução de problemas, o que muitas vezes resulta em ferramentas surpreendentemente intuitivas também para usuários humanos."
question: "Quais são as etapas críticas na avaliação do desempenho das ferramentas de agente de IA?" answer: "A avaliação das ferramentas de agente de IA envolve uma abordagem sistemática que começa com a geração de um conjunto diversificado de tarefas de avaliação do mundo real. Essas tarefas devem ser complexas o suficiente para testar as ferramentas sob estresse, potencialmente exigindo múltiplas chamadas de ferramentas. Em seguida, a avaliação é executada programaticamente, tipicamente usando loops agênticos que simulam como um agente interagiria com as ferramentas. As métricas-chave coletadas incluem precisão, tempo total de execução, número de chamadas de ferramentas, consumo de tokens e erros de ferramentas. Finalmente, a análise dos resultados envolve ter agentes fornecendo raciocínio e feedback, revisando transcrições brutas e identificando padrões de uso ou erros de ferramentas para identificar áreas de melhoria nas descrições, esquemas ou implementações de ferramentas."
question: "Como agentes de IA como Claude podem otimizar suas próprias ferramentas?" answer: "Anthropic demonstra que agentes de IA, particularmente modelos como Claude Code, podem desempenhar um papel crucial na otimização das próprias ferramentas que utilizam. Isso é alcançado alimentando o agente com transcrições e resultados de avaliações de ferramentas. Claude pode então analisar essas interações, identificar ineficiências, inconsistências ou áreas onde as descrições das ferramentas não são claras, e sugerir refatorações. Por exemplo, ele pode garantir que as implementações e descrições das ferramentas permaneçam autoconsistentes após as alterações ou recomendar ajustes nos parâmetros para uma melhor eficiência de tokens. Essa abordagem colaborativa alavanca as capacidades analíticas do agente para melhorar continuamente a qualidade e a ergonomia de seu conjunto de ferramentas, levando a um desempenho aprimorado."
question: "Quais são os princípios-chave para escrever ferramentas de alta qualidade para agentes de IA?" answer: "Vários princípios fundamentais guiam a criação de ferramentas eficazes para agentes de IA. Primeiramente, escolher judiciosamente quais ferramentas implementar (e quais omitir) é crucial para a clareza e eficiência do agente. Em segundo lugar, o namespacing das ferramentas define claramente seus limites funcionais, reduzindo a ambiguidade para o agente. Terceiro, as ferramentas devem retornar contexto significativo e conciso aos agentes, auxiliando na tomada de decisões. Quarto, otimizar as respostas das ferramentas para eficiência de tokens é vital para gerenciar custos e velocidade de processamento em interações LLM. Por fim, a engenharia meticulosa de prompts nas descrições e especificações das ferramentas garante que os agentes entendam e utilizem com precisão o propósito e as capacidades de cada ferramenta, minimizando erros e maximizando a eficácia."


## O Papel Crucial das Ferramentas no Desempenho dos Agentes de IA

No cenário em rápida evolução da IA, a eficácia de um agente inteligente depende significativamente da qualidade e utilidade das ferramentas que ele maneja. À medida que os modelos de inteligência artificial se tornam cada vez mais capazes, permitindo-lhes realizar tarefas complexas e de múltiplas etapas, a forma como interagem com sistemas externos – através de "ferramentas" – torna-se primordial. A Anthropic, líder em pesquisa e desenvolvimento de IA, compartilhou insights cruciais sobre como construir, avaliar e até otimizar essas ferramentas, impulsionando dramaticamente o desempenho do agente.

No cerne dessa abordagem está o Protocolo de Contexto do Modelo (MCP), um sistema projetado para capacitar agentes de grandes modelos de linguagem (LLM) com acesso a uma vasta gama de funcionalidades. No entanto, simplesmente fornecer ferramentas não é suficiente; elas devem ser maximamente eficazes. Este artigo se aprofunda nas técnicas comprovadas da Anthropic para melhorar os sistemas de IA agênticos, destacando como modelos de IA como Claude podem refinar colaborativamente seus próprios conjuntos de ferramentas. A jornada desde o conceito inicial até a ferramenta otimizada envolve prototipagem, avaliação rigorosa e um ciclo de feedback colaborativo com o próprio agente.

## Compreendendo as Ferramentas de Agente de IA: Um Novo Paradigma para Software

Tradicionalmente, o desenvolvimento de software opera com base em princípios determinísticos: dada a mesma entrada, uma função sempre produzirá a mesma saída. Considere uma simples chamada `getWeather("NYC")`; ela busca consistentemente o clima da cidade de Nova York de maneira idêntica. No entanto, agentes de IA, como o Claude da Anthropic, operam como sistemas *não determinísticos*. Isso significa que suas respostas podem variar mesmo sob condições iniciais idênticas.

Essa diferença fundamental exige uma mudança de paradigma ao projetar software para agentes. Ferramentas para agentes de IA não são apenas funções ou APIs para outros desenvolvedores; são interfaces projetadas para uma entidade inteligente, mas às vezes imprevisível. Quando um usuário pergunta: "Devo levar um guarda-chuva hoje?", um agente pode chamar uma ferramenta de clima, usar conhecimento geral ou até pedir esclarecimento sobre o local. Ocasionalmente, os agentes podem alucinar ou não entender como usar uma ferramenta corretamente.

Portanto, o objetivo é aumentar a "área de superfície" sobre a qual os agentes podem ser eficazes. Isso significa criar ferramentas que não sejam apenas robustas, mas também "ergonômicas" para os agentes usarem. Curiosamente, a experiência da Anthropic mostra que ferramentas projetadas com a natureza não determinística de um agente em mente geralmente se mostram surpreendentemente intuitivas e fáceis para os humanos também entenderem. Essa perspectiva sobre o desenvolvimento de ferramentas é fundamental para desbloquear todo o potencial de modelos sofisticados como [Claude Opus](/pt/claude-opus-4-6) ou [Claude Sonnet](/pt/claude-sonnet-4-6) em aplicações do mundo real.

## Desenvolvendo Ferramentas de IA Eficazes: Do Protótipo à Otimização

A jornada de criação de ferramentas eficazes para agentes de IA é um processo iterativo de construção, teste e refinamento. A Anthropic enfatiza uma abordagem prática, começando com a prototipagem rápida e, em seguida, passando para uma avaliação abrangente.

### Construindo um Protótipo Rápido

Antecipar como os agentes interagirão com as ferramentas pode ser desafiador sem experiência prática. O primeiro passo envolve a rápida criação de um protótipo. Se os desenvolvedores estão utilizando um agente como o [Claude Code](https://www.anthropic.com/claude-code) para a criação de ferramentas, fornecer documentação bem estruturada para quaisquer bibliotecas de software subjacentes, APIs ou SDKs (incluindo o MCP SDK) é crucial. Arquivos 'llms.txt' simples, frequentemente encontrados em sites de documentação oficial, são particularmente amigáveis a LLM.

Esses protótipos podem ser encapsulados em um servidor MCP local ou uma Extensão de Desktop (DXT) para facilitar o teste local dentro do Claude Code ou do aplicativo Claude Desktop. Para testes programáticos, as ferramentas também podem ser passadas diretamente para chamadas de API da Anthropic. Esta fase inicial incentiva os desenvolvedores a testarem pessoalmente as ferramentas, coletarem feedback dos usuários e construírem uma intuição em torno dos casos de uso esperados e dos prompts que as ferramentas devem manipular.

### Realizando uma Avaliação Abrangente

Uma vez que um protótipo está funcional, o próximo passo crítico é medir a eficácia com que o agente usa essas ferramentas por meio de uma avaliação sistemática. Isso envolve a geração de uma infinidade de tarefas de avaliação baseadas em cenários do mundo real.

#### Gerando Tarefas de Avaliação

As tarefas de avaliação devem ser inspiradas em consultas reais de usuários e utilizar fontes de dados realistas. É importante evitar ambientes "sandbox" simplistas que não testam adequadamente a complexidade das ferramentas sob estresse. Tarefas de avaliação robustas geralmente exigem que os agentes façam múltiplas chamadas de ferramentas para chegar a uma solução.

| Tipo de Tarefa | Exemplo Forte                                                                                                                                                                                                                                                          | Exemplo Fraco                                                                                                                                                                                                                            |
| :------------- | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Agendamento de Reunião** | 'Agende uma reunião com a Jane na próxima semana para discutir nosso último projeto da Acme Corp. Anexe as notas da nossa última reunião de planejamento de projeto e reserve uma sala de conferências.'                                                         | 'Agende uma reunião com jane@acme.corp na próxima semana.'                                                                                                                                                                               |
| **Atendimento ao Cliente** | 'O Cliente ID 9182 relatou que foi cobrado três vezes por uma única tentativa de compra. Encontre todas as entradas de log relevantes e determine se outros clientes foram afetados pelo mesmo problema.'                                                        | 'Pesquise nos logs de pagamento por 'purchase_complete' e 'customer_id=9182'.'                                                                                                                                                           |
| **Análise de Retenção** | 'A cliente Sarah Chen acabou de enviar um pedido de cancelamento. Prepare uma oferta de retenção. Determine: (1) por que ela está saindo, (2) qual oferta de retenção seria a mais atraente e (3) quaisquer fatores de risco que devemos estar cientes antes de fazer uma oferta.' | 'Encontre o pedido de cancelamento pelo Cliente ID 45892.'                                                                                                                                                                                |

Cada prompt deve ser emparelhado com uma resposta ou resultado verificável. Os verificadores podem variar desde comparações simples de strings até avaliações mais avançadas que envolvem um agente para julgar a resposta. É crucial evitar verificadores excessivamente rigorosos que possam rejeitar respostas válidas devido a pequenas diferenças de formatação. Opcionalmente, os desenvolvedores podem especificar as chamadas de ferramentas esperadas, embora isso deva ser feito cuidadosamente para evitar a superespecificação ou o superajuste a estratégias específicas, pois os agentes podem encontrar múltiplos caminhos válidos para uma solução.

#### Executando a Avaliação Programaticamente

A Anthropic recomenda executar avaliações programaticamente usando chamadas diretas de API LLM dentro de loops agênticos simples (por exemplo, loops `while` alternando entre chamadas de API LLM e de ferramentas). Cada agente de avaliação recebe um único prompt de tarefa e as ferramentas. Nos prompts do sistema para esses agentes, é benéfico instruí-los a gerar blocos de resposta estruturados (para verificação), raciocínio e blocos de feedback *antes* dos blocos de chamada e resposta da ferramenta. Isso incentiva comportamentos de cadeia de pensamento (CoT), aumentando a inteligência efetiva do LLM. O recurso "pensamento intercalado" de Claude oferece funcionalidade similar pronta para uso, fornecendo insights sobre por que os agentes fazem escolhas específicas de ferramentas.

Além da precisão de alto nível, a coleta de métricas como tempo total de execução, número de chamadas de ferramentas, consumo de tokens e erros de ferramentas é vital. O rastreamento das chamadas de ferramentas pode revelar fluxos de trabalho comuns do agente, sugerindo oportunidades para consolidação ou refinamento das ferramentas.

## Otimizando Ferramentas com IA: A Abordagem Colaborativa de Claude

A análise dos resultados da avaliação é uma fase crítica. Os próprios agentes podem ser parceiros inestimáveis nesse processo, identificando problemas e fornecendo feedback. No entanto, o feedback deles nem sempre é explícito; o que eles *omitem* pode ser tão revelador quanto o que *incluem*. Os desenvolvedores devem examinar o raciocínio do agente (CoT), revisar as transcrições brutas (incluindo chamadas e respostas de ferramentas) e analisar as métricas de chamada de ferramentas. Por exemplo, chamadas de ferramentas redundantes podem indicar a necessidade de ajustar a paginação ou os limites de tokens, enquanto erros frequentes devido a parâmetros inválidos podem indicar descrições de ferramentas pouco claras.

Um exemplo notável da Anthropic envolveu a ferramenta de pesquisa na web de Claude, onde ele estava desnecessariamente adicionando '2025' às consultas, enviesando os resultados. Melhorar a descrição da ferramenta foi fundamental para direcionar Claude na direção certa.

O aspecto mais inovador da metodologia da Anthropic é a capacidade de permitir que os agentes analisem seus *próprios* resultados e melhorem suas ferramentas. Ao concatenar transcrições de avaliação e alimentá-las no Claude Code, os desenvolvedores podem aproveitar a experiência de Claude na análise de interações complexas e na refatoração de ferramentas. Claude se destaca em garantir a consistência entre implementações e descrições de ferramentas, mesmo em inúmeras mudanças. Esse poderoso ciclo de feedback significa que grande parte dos próprios conselhos da Anthropic sobre o desenvolvimento de ferramentas foi gerada e refinada através desse mesmo processo de otimização assistida por agente, ecoando a crescente tendência de [fluxos de trabalho agênticos](github-agentic-workflows) no desenvolvimento de software.

## Princípios Chave para o Desenvolvimento de Ferramentas de Agente de Alta Qualidade

Através de extensa experimentação e otimização impulsionada por agentes, a Anthropic identificou vários princípios fundamentais para a criação de ferramentas de alta qualidade para agentes de IA:

1.  **Seleção Estratégica de Ferramentas:** Escolha sabiamente quais ferramentas implementar e, crucialmente, quais não. Sobrecargar um agente com ferramentas desnecessárias pode levar à confusão e ineficiência.
2.  **Namespacing Claro:** Defina limites e funcionalidades claras para cada ferramenta através de um namespacing eficaz. Isso ajuda os agentes a entender o escopo e o propósito precisos de cada capacidade.
3.  **Retorno de Contexto Significativo:** As ferramentas devem retornar um contexto conciso e relevante para o agente, permitindo uma tomada de decisão informada sem informações verbosas ou desnecessárias.
4.  **Otimização da Eficiência de Tokens:** Otimize as respostas das ferramentas para serem eficientes em termos de tokens. Em interações LLM, cada token conta tanto para o custo quanto para a velocidade de processamento.
5.  **Engenharia Precisa de Prompts:** Faça uma engenharia meticulosa de prompts nas descrições e especificações das ferramentas. Instruções claras e inequívocas são vitais para que os agentes interpretem e utilizem corretamente as ferramentas.

Ao aderir a esses princípios e adotar um ciclo de desenvolvimento iterativo e assistido por agentes, os desenvolvedores podem construir ferramentas robustas, eficientes e altamente eficazes que aprimoram significativamente o desempenho e as capacidades dos agentes de IA, expandindo os limites do que esses sistemas inteligentes podem alcançar.

Ferramentas de Agente: Aprimorando o Desempenho da IA com a Otimização de Claude

Perguntas Frequentes

Fique Atualizado