Code Velocity
Ontwikkelaarsgereedskap

Agentgereedskap: Verbeter KI-prestasie met Claude-optimisering

·7 min lees·Anthropic·Oorspronklike bron
Deel
Illustrasie van KI-agentgereedskapevaluering en -optimisering met Claude Code vir verbeterde prestasie.

Die Kritiese Rol van Gereedskap in KI-Agentprestasie

In die vinnig ontwikkelende landskap van KI, hang die doeltreffendheid van 'n intelligente agent grootliks af van die kwaliteit en nut van die gereedskap wat dit gebruik. Soos kunsmatige intelligensie-modelle toenemend bekwamer word, wat hulle in staat stel om komplekse, multi-stap take uit te voer, word die manier waarop hulle met eksterne stelsels – deur "gereedskap" – interaksie het, van uiterste belang. Anthropic, 'n leier in KI-navorsing en -ontwikkeling, het deurslaggewende insigte gedeel oor hoe om hierdie gereedskap te bou, te evalueer en selfs te optimiseer, wat agentprestasie dramaties verhoog.

In die kern van hierdie benadering lê die Modelkonteks-protokol (MCP), 'n stelsel wat ontwerp is om groottaalmodel (LLM) agente te bemagtig met toegang tot 'n wye verskeidenheid funksionaliteite. Om egter bloot gereedskap te verskaf is nie genoeg nie; dit moet maksimaal effektief wees. Hierdie artikel delf in Anthropic se beproefde tegnieke vir die verbetering van agentiese KI-stelsels, en beklemtoon hoe KI-modelle soos Claude gesamentlik hul eie gereedskapstelle kan verfyn. Die reis van aanvanklike konsep tot geoptimaliseerde gereedskap behels prototipering, streng evaluering en 'n samewerkende terugvoellus met die agent self.

Die Begrip van KI-Agentgereedskap: 'n Nuwe Paradigma vir Sagteware

Tradisioneel werk sagteware-ontwikkeling volgens deterministiese beginsels: gegewe dieselfde inset, sal 'n funksie altyd dieselfde uitset lewer. Dink aan 'n eenvoudige getWeather("NYC")-oproep; dit haal konsekwent New York Stad se weer op 'n identiese wyse op. KI-agente, soos Anthropic se Claude, werk egter as nie-deterministiese stelsels. Dit beteken dat hul reaksies kan verskil, selfs onder identiese aanvanklike voorwaardes.

Hierdie fundamentele verskil noodsaak 'n paradigmaverskuiwing by die ontwerp van sagteware vir agente. Gereedskap vir KI-agente is nie net funksies of API's vir ander ontwikkelaars nie; dit is koppelvlakke wat ontwerp is vir 'n intelligente, maar soms onvoorspelbare, entiteit. Wanneer 'n gebruiker vra, "Moet ek vandag 'n sambreel saambring?", kan 'n agent 'n weergereedskap oproep, algemene kennis gebruik, of selfs vir verduideliking oor ligging vra. Soms kan agente hallusineer of versuim om te verstaan hoe om 'n gereedskap korrek te gebruik.

Daarom is die doel om die "oppervlakte" waaroor agente effektief kan wees, te vergroot. Dit beteken om gereedskap te skep wat nie net robuust is nie, maar ook "ergonomies" is vir agente om te gebruik. Interessant genoeg toon Anthropic se ervaring dat gereedskap wat ontwerp is met 'n agent se nie-deterministiese aard in gedagte, dikwels verrassend intuïtief en maklik is vir mense om ook te verstaan. Hierdie perspektief op gereedskapontwikkeling is die sleutel tot die ontsluiting van die volle potensiaal van gesofistikeerde modelle soos Claude Opus of Claude Sonnet in werklike toepassings.

Die Ontwikkeling van Effektiewe KI-Gereedskap: Van Prototipe tot Optimisering

Die reis van die skepping van effektiewe KI-agentgereedskap is 'n iteratiewe proses van bou, toets en verfyn. Anthropic beklemtoon 'n praktiese benadering, wat begin met vinnige prototipering en dan oorgaan na omvattende evaluering.

Die Bou van 'n Vinnige Prototipe

Om te antisipeer hoe agente met gereedskap sal interaksie hê, kan uitdagend wees sonder praktiese ondervinding. Die eerste stap behels die vinnige opstelling van 'n prototipe. As ontwikkelaars 'n agent soos Claude Code vir gereedskapsskepping benut, is die verskaffing van goed gestruktureerde dokumentasie vir enige onderliggende sagtewarebiblioteke, API's of SDK's (insluitend die MCP SDK) deurslaggewend. Platte 'llms.txt'-lêers, wat dikwels op amptelike dokumentasiewebwerwe gevind word, is besonder LLM-vriendelik.

Hierdie prototipes kan in 'n plaaslike MCP-bediener of 'n Desktop Uitbreiding (DXT) omhul word om plaaslike toetsing binne Claude Code of die Claude Desktop-toepassing te fasiliteer. Vir programmatiese toetsing kan gereedskap ook direk in Anthropic API-oproepe gevoer word. Hierdie aanvanklike fase moedig ontwikkelaars aan om die gereedskap persoonlik te toets, gebruikersterugvoer te versamel, en intuïsie te bou rondom die verwagte gebruiksgevalle en aanwysings wat die gereedskap veronderstel is om te hanteer.

Die Uitvoering van 'n Omvattende Evaluering

Sodra 'n prototipe funksioneel is, is die volgende kritieke stap om te meet hoe effektief die agent hierdie gereedskap gebruik deur middel van 'n sistematiese evaluering. Dit behels die generering van 'n menigte evalueringstake wat in werklike scenario's gegrond is.

Die Generering van Evalueringstake

Evalueringstake moet geïnspireer word deur werklike gebruiker navrae en realistiese databronne benut. Dit is belangrik om simplistiese "sandbox"-omgewings te vermy wat nie die kompleksiteit van die gereedskap voldoende stres-toets nie. Sterk evalueringstake vereis dikwels dat agente veelvuldige gereedskapoproepe doen om 'n oplossing te bereik.

| Taak Tipe | Sterk Voorbeeld | Swak Voorbeeld | | :-------- | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | :--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ur te bespreek. Heg die notas van ons laaste projekbeplanningsvergadering aan en bespreek 'n konferensiekamer." | "Skeduleer 'n vergadering met jane@acme.corp volgende week." | | Kliëntediens | "Kliënt ID 9182 het gerapporteer dat hulle drie keer gehef is vir 'n enkele aankoopspoging. Vind alle relevante loginskrywings en bepaal of enige ander kliënte deur dieselfde probleem geraak is." | "Soek die betalingslogs vir 'purchase_complete' en 'customer_id=9182'." | | Behoud Analise | "Kliënt Sarah Chen het pas 'n kansellasieversoek ingedien. Berei 'n behoudsaanbod voor. Bepaal: (1) waarom hulle vertrek, (2) watter behoudsaanbod die mees oortuigende sou wees, en (3) enige risikofaktore waarvan ons bewus moet wees voordat 'n aanbod gemaak word." | "Vind die kansellasieversoek deur Kliënt ID 45892." |

Elke aanwysing moet gepaard gaan met 'n verifieerbare reaksie of uitkoms. Verifieerders kan wissel van eenvoudige stringvergelykings tot meer gevorderde evaluasies wat 'n agent inspan om die reaksie te beoordeel. Dit is noodsaaklik om oormatig streng verifieerders te vermy wat geldige reaksies mag verwerp as gevolg van geringe formateringverskille. Opsioneel kan ontwikkelaars die verwagte gereedskapoproepe spesifiseer, alhoewel dit versigtig gedoen moet word om oormatige spesifikasie of oorpassing by spesifieke strategieë te vermy, aangesien agente veelvuldige geldige paaie na 'n oplossing mag vind.

Die Programmatiese Uitvoering van die Evaluering

Anthropic beveel aan om evaluasies programmaties uit te voer met behulp van direkte LLM API-oproepe binne eenvoudige agentiese lusse (bv. while-lusse wat wissel tussen LLM API- en gereedskapoproepe). Elke evaluasie-agent kry 'n enkele taak-aanwysing en die gereedskap. In die stelselaanwysings vir hierdie agente is dit voordelig om hulle op te dra om gestruktureerde antwoordblokke (vir verifikasie), redenasie- en terugvoerblokke voor gereedskapoproep- en antwoordblokke uit te voer. Dit moedig ketting-van-denke (CoT)-gedrag aan, wat die LLM se effektiewe intelligensie verhoog. Claude se "interleaved thinking"-funksie bied soortgelyke funksionaliteit uit-die-boks, en verskaf insigte in waarom agente spesifieke gereedskapkeuses maak.

Behalwe vir top-vlak akkuraatheid, is die versameling van statistieke soos totale looptyd, aantal gereedskapoproepe, tekenverbruik en gereedskapfoute noodsaaklik. Die dop van gereedskapoproepe kan algemene agentwerkstrome openbaar, wat geleenthede vir gereedskapkonsolidasie of verfyning voorstel.

Die Optimisering van Gereedskap met KI: Claude se Samewerkende Benadering

Die ontleding van evaluasieresultate is 'n kritieke fase. Agente self kan van onskatbare waarde wees in hierdie proses, deur probleme op te spoor en terugvoer te gee. Hul terugvoer is egter nie altyd eksplisiet nie; wat hulle weglaat kan net so veelseggend wees as wat hulle insluit. Ontwikkelaars moet agentredenasie (CoT) noukeurig ondersoek, rou transkripsies (insluitend gereedskapoproepe en -antwoorde) hersien, en gereedskapoproepstatistieke analiseer. Byvoorbeeld, oortollige gereedskapoproepe kan 'n behoefte aan die aanpassing van paginering of tekenlimiete aandui, terwyl gereelde foute as gevolg van ongeldige parameters onduidelike gereedskapbeskrywings kan aandui.

'n Noemenswaardige voorbeeld van Anthropic het Claude se websoekgereedskap behels, waar dit onnodig '2025' aan navrae geheg het, wat resultate bevooroordeel het. Die verbetering van die gereedskapbeskrywing was die sleutel om Claude in die regte rigting te stuur.

Die mees innoverende aspek van Anthropic se metodologie is die vermoë om agente hul eie resultate te laat analiseer en hul gereedskap te verbeter. Deur evalueringstranskripsies saam te voeg en dit in Claude Code in te voer, kan ontwikkelaars Claude se kundigheid in die analise van komplekse interaksies en die herstrukturering van gereedskap benut. Claude blink uit in die versekering van konsekwentheid tussen gereedskapimplementerings en -beskrywings, selfs oor talle veranderinge heen. Hierdie kragtige terugvoellus beteken dat baie van Anthropic se eie advies oor gereedskapontwikkeling gegenereer en verfyn is deur hierdie einste proses van agent-ondersteunde optimisering, wat die groeiende neiging van agentiese werkstrome in sagteware-ontwikkeling weerspieël.

Sleutelbeginsels vir Hoëgehalte Agentgereedskapontwikkeling

Deur uitgebreide eksperimentering en agentgedrewe optimisering het Anthropic verskeie kernbeginsels vir die skep van hoëgehalte gereedskap vir KI-agente geïdentifiseer:

  1. Strategiese Gereedskapkeuse: Kies oordeelkundig watter gereedskap om te implementeer, en krities, watter nie. Om 'n agent met onnodige gereedskap te oorlaai, kan lei tot verwarring en ondoeltreffendheid.
  2. Duidelike Naamruimtes: Definieer duidelike grense en funksionaliteite vir elke gereedskap deur effektiewe naamruimtes. Dit help agente om die presiese omvang en doel van elke vermoë te verstaan.
  3. Betekenisvolle Konteks Terugvoer: Gereedskap moet bondige en relevante konteks aan die agent teruggee, wat ingeligte besluitneming moontlik maak sonder omslagtig of oorbodige inligting.
  4. Teken-effektiwiteitsoptimisering: Optimaliseer gereedskapreaksies om teken-effektief te wees. In LLM-interaksies tel elke teken vir beide koste en verwerkingspoed.
  5. Presiese Aanwysingsingenieurswese: Noukeurig aanwysingsingenieurswese van gereedskapbeskrywings en -spesifikasies. Duidelike, ondubbelsinnige instruksies is noodsaaklik vir agente om die gereedskap korrek te interpreteer en te benut.

Deur hierdie beginsels na te kom en 'n iteratiewe, agent-ondersteunde ontwikkelingsiklus te omhels, kan ontwikkelaars robuuste, doeltreffende en hoogs effektiewe gereedskap bou wat die prestasie en vermoëns van KI-agente aansienlik verbeter, en die grense verskuif van wat hierdie intelligente stelsels kan bereik.

Gereelde Vrae

What is the Model Context Protocol (MCP) and how does it relate to AI agents?
The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.
Why is designing tools specifically for non-deterministic AI agents different from traditional software development?
Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.
What are the critical steps in evaluating the performance of AI agent tools?
Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.
How can AI agents like Claude optimize their own tools?
Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.
What are the key principles for writing high-quality tools for AI agents?
Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Bly op hoogte

Kry die nuutste KI-nuus in jou inkassie.

Deel