Code Velocity
Utvecklarverktyg

Agentverktyg: Förbättra AI-prestanda med Claude-optimering

·7 min läsning·Anthropic·Originalkälla
Dela
Illustration av utvärdering och optimering av AI-agentverktyg med Claude Code för förbättrad prestanda.

Verktygens avgörande roll för AI-agenters prestanda

I det snabbt föränderliga AI-landskapet är effektiviteten hos en intelligent agent starkt beroende av kvaliteten och användbarheten hos de verktyg den använder. När AI-modeller blir allt mer kapabla och kan utföra komplexa uppgifter i flera steg, blir sättet de interagerar med externa system – genom 'verktyg' – av yttersta vikt. Anthropic, en ledare inom AI-forskning och -utveckling, har delat avgörande insikter om hur man bygger, utvärderar och till och med optimerar dessa verktyg, vilket dramatiskt förbättrar agenternas prestanda.

I hjärtat av detta tillvägagångssätt ligger Model Context Protocol (MCP), ett system utformat för att ge stora språkmodellsagenter (LLM) tillgång till en mängd olika funktioner. Att bara tillhandahålla verktyg räcker dock inte; de måste vara maximalt effektiva. Denna artikel går igenom Anthropics beprövade tekniker för att förbättra agentiska AI-system, och belyser hur AI-modeller som Claude kan samarbeta för att förfina sina egna verktygsuppsättningar. Resan från initialt koncept till optimerat verktyg involverar prototyputveckling, rigorös utvärdering och en samarbetsinriktad feedback-loop med agenten själv.

Förstå AI-agentverktyg: Ett nytt paradigm för programvara

Traditionellt fungerar programvaruutveckling enligt deterministiska principer: med samma indata kommer en funktion alltid att producera samma utdata. Tänk på ett enkelt anrop getWeather("NYC"); det hämtar konsekvent vädret i New York City på ett identiskt sätt. AI-agenter, som Anthropics Claude, fungerar dock som icke-deterministiska system. Detta innebär att deras svar kan variera även under identiska initiala förhållanden.

Denna grundläggande skillnad kräver ett paradigmskifte vid design av programvara för agenter. Verktyg för AI-agenter är inte bara funktioner eller API:er för andra utvecklare; de är gränssnitt utformade för en intelligent, men ibland oförutsägbar, entitet. När en användare frågar: 'Ska jag ta med paraply idag?', kan en agent anropa ett väderverktyg, använda allmän kunskap, eller till och med be om förtydligande om plats. Ibland kan agenter 'hallucinera' eller misslyckas med att förstå hur man använder ett verktyg korrekt.

Därför är målet att öka den 'yta' över vilken agenter kan vara effektiva. Detta innebär att skapa verktyg som inte bara är robusta utan också 'ergonomiska' för agenter att använda. Intressant nog visar Anthropics erfarenhet att verktyg designade med en agents icke-deterministiska natur i åtanke ofta visar sig vara överraskande intuitiva och lätta även för människor att förstå. Detta perspektiv på verktygsutveckling är nyckeln till att låsa upp den fulla potentialen hos sofistikerade modeller som Claude Opus eller Claude Sonnet i verkliga applikationer.

Utveckla effektiva AI-verktyg: Från prototyp till optimering

Resan med att skapa effektiva AI-agentverktyg är en iterativ process av byggande, testning och förfining. Anthropic betonar ett praktiskt tillvägagångssätt, som börjar med snabb prototyputveckling och sedan går över till omfattande utvärdering.

Bygga en snabb prototyp

Att förutse hur agenter kommer att interagera med verktyg kan vara utmanande utan praktisk erfarenhet. Det första steget innebär att snabbt sätta upp en prototyp. Om utvecklare använder en agent som Claude Code för att skapa verktyg, är det avgörande att tillhandahålla välorganiserad dokumentation för alla underliggande programvarubibliotek, API:er eller SDK:er (inklusive MCP SDK). Plana 'llms.txt'-filer, som ofta finns på officiella dokumentationssidor, är särskilt LLM-vänliga.

Dessa prototyper kan paketeras i en lokal MCP-server eller en Desktop Extension (DXT) för att underlätta lokal testning inom Claude Code eller Claude Desktop-appen. För programmatisk testning kan verktyg också direkt skickas in i Anthropic API-anrop. Denna initiala fas uppmuntrar utvecklare att personligen testa verktygen, samla in användarfeedback och bygga intuition kring de förväntade användningsfallen och 'prompts' som verktygen är avsedda att hantera.

Köra en omfattande utvärdering

När en prototyp är funktionell är nästa kritiska steg att mäta hur effektivt agenten använder dessa verktyg genom en systematisk utvärdering. Detta innebär att generera en mängd utvärderingsuppgifter baserade på verkliga scenarier.

Generera utvärderingsuppgifter

Utvärderingsuppgifter bör inspireras av faktiska användarfrågor och använda realistiska datakällor. Det är viktigt att undvika förenklade 'sandlådemiljöer' som inte tillräckligt 'stress-testar' verktygens komplexitet. Starka utvärderingsuppgifter kräver ofta att agenter gör flera verktygsanrop för att uppnå en lösning.

UppgiftstypStarkt exempelSvagt exempel
Mötesbokning'Boka ett möte med Jane nästa vecka för att diskutera vårt senaste Acme Corp-projekt. Bifoga anteckningarna från vårt senaste projektplaneringsmöte och boka ett konferensrum.''Boka ett möte med jane@acme.corp nästa vecka.'
Kundtjänst'Kund-ID 9182 rapporterade att de debiterades tre gånger för ett enda köpförsök. Hitta alla relevanta loggposter och avgör om några andra kunder påverkades av samma problem.''Sök i betalningsloggarna efter 'purchase_complete' och 'customer_id=9182'.'
Retentionsanalys'Kunden Sarah Chen har precis skickat in en avbokningsbegäran. Förbered ett retentionserbjudande. Bestäm: (1) varför de lämnar, (2) vilket retentionserbjudande som skulle vara mest lockande, och (3) eventuella riskfaktorer vi bör vara medvetna om innan vi ger ett erbjudande.''Hitta avbokningsbegäran från Kund-ID 45892.'

Varje 'prompt' bör paras ihop med ett verifierbart svar eller utfall. Verifierare kan sträcka sig från enkla strängjämförelser till mer avancerade utvärderingar som involverar en agent för att bedöma svaret. Det är avgörande att undvika överdrivet strikta verifierare som kan avvisa giltiga svar på grund av små formateringsskillnader. Valfritt kan utvecklare specificera de förväntade verktygsanropen, även om detta bör göras noggrant för att undvika över-specificering eller överanpassning till specifika strategier, eftersom agenter kan hitta flera giltiga vägar till en lösning.

Köra utvärderingen programmatiskt

Anthropic rekommenderar att köra utvärderingar programmatiskt med direkta LLM API-anrop inom enkla agentiska 'loopar' (t.ex. while-loopar som växlar mellan LLM API- och verktygsanrop). Varje utvärderingsagent får en enda 'task prompt' och verktygen. I systemprompterna för dessa agenter är det fördelaktigt att instruera dem att mata ut strukturerade svarsblock (för verifiering), resonemang och feedback-block före verktygsanrop och svarsblock. Detta uppmuntrar 'chain-of-thought' (CoT)-beteenden, vilket förstärker LLM:s effektiva intelligens. Claudes funktion för 'interfolierat tänkande' ('interleaved thinking') erbjuder liknande funktionalitet direkt, och ger insikter om varför agenter gör specifika verktygsval.

Utöver toppnivånoggrannhet är det avgörande att samla in mätvärden som total körtid, antal verktygsanrop, tokenförbrukning och verktygsfel. Att spåra verktygsanrop kan avslöja vanliga agentarbetsflöden, vilket tyder på möjligheter till verktygskonsolidering eller förfining.

Optimera verktyg med AI: Claudes samarbetsinriktade tillvägagångssätt

Att analysera utvärderingsresultat är en kritisk fas. Agenter kan själva vara ovärderliga partners i denna process, upptäcka problem och ge feedback. Deras feedback är dock inte alltid explicit; vad de utelämnar kan vara lika talande som vad de inkluderar. Utvecklare bör granska agentens resonemang (CoT), granska råa transkriptioner (inklusive verktygsanrop och svar), och analysera mätvärden för verktygsanrop. Till exempel kan redundanta verktygsanrop signalera ett behov av att justera paginering eller tokenbegränsningar, medan frekventa fel på grund av ogiltiga parametrar kan indikera oklara verktygsbeskrivningar.

Ett anmärkningsvärt exempel från Anthropic involverade Claudes webbsöksverktyg, där den i onödan lade till '2025' till frågor, vilket snedvred resultaten. Att förbättra verktygsbeskrivningen var nyckeln till att styra Claude i rätt riktning.

Den mest innovativa aspekten av Anthropics metodik är förmågan att låta agenter analysera sina egna resultat och förbättra sina verktyg. Genom att sammanfoga utvärderingstranskriptioner och mata in dem i Claude Code, kan utvecklare utnyttja Claudes expertis i att analysera komplexa interaktioner och 'refaktorera' verktyg. Claude utmärker sig i att säkerställa konsekvens mellan verktygsimplementeringar och beskrivningar, även över många ändringar. Denna kraftfulla feedback-loop innebär att mycket av Anthropics egna råd om verktygsutveckling har genererats och förfinats genom just denna process av agentassisterad optimering, vilket speglar den växande trenden med agentiska arbetsflöden inom programvaruutveckling.

Nyckelprinciper för utveckling av högkvalitativa agentverktyg

Genom omfattande experiment och agentdriven optimering har Anthropic identifierat flera kärnprinciper för att skapa högkvalitativa verktyg för AI-agenter:

  1. Strategiskt verktygsval: Välj klokt vilka verktyg som ska implementeras, och kritiskt, vilka som inte ska implementeras. Att överbelasta en agent med onödiga verktyg kan leda till förvirring och ineffektivitet.
  2. Tydlig namngivning ('Namespacing'): Definiera tydliga gränser och funktionaliteter för varje verktyg genom effektiv namngivning. Detta hjälper agenter att förstå den exakta omfattningen och syftet med varje förmåga.
  3. Meningsfull kontextåtergivning: Verktyg bör returnera koncis och relevant kontext till agenten, vilket möjliggör informerat beslutsfattande utan utförlig eller överflödig information.
  4. Optimering av token-effektivitet: Optimera verktygssvar för att vara token-effektiva. I LLM-interaktioner räknas varje token för både kostnad och bearbetningshastighet.
  5. Precis 'Prompt-Engineering': Noggrant 'prompt-engineer' verktygsbeskrivningar och specifikationer. Tydliga, otvetydiga instruktioner är avgörande för att agenter korrekt ska kunna tolka och använda verktygen.

Genom att följa dessa principer och anta en iterativ, agentassisterad utvecklingscykel, kan utvecklare bygga robusta, effektiva och mycket effektiva verktyg som avsevärt förbättrar AI-agenternas prestanda och kapacitet, vilket flyttar gränserna för vad dessa intelligenta system kan uppnå.

Vanliga frågor

What is the Model Context Protocol (MCP) and how does it relate to AI agents?
The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.
Why is designing tools specifically for non-deterministic AI agents different from traditional software development?
Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.
What are the critical steps in evaluating the performance of AI agent tools?
Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.
How can AI agents like Claude optimize their own tools?
Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.
What are the key principles for writing high-quality tools for AI agents?
Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela