What is the Model Context Protocol (MCP) and how does it relate to AI agents?

The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.

Why is designing tools specifically for non-deterministic AI agents different from traditional software development?

Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.

What are the critical steps in evaluating the performance of AI agent tools?

Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.

How can AI agents like Claude optimize their own tools?

Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.

What are the key principles for writing high-quality tools for AI agents?

Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Zana za Wakala: Kuboresha Utendaji wa AI kwa Uboreshaji wa Claude

title: "Zana za Wakala: Kuboresha Utendaji wa AI kwa Uboreshaji wa Claude" slug: "writing-tools-for-agents" date: "2026-03-08" lang: "sw" source: "https://www.anthropic.com/engineering/writing-tools-for-agents" category: "Zana za Wasanidi Programu" keywords:

Mawakala wa AI
Zana za LLM
Anthropic Claude
Uboreshaji wa zana
Mifumo ya AI wakala
Itifaki ya Muktadha wa Mfumo (MCP)
Tathmini ya zana
Uhandisi wa Maelekezo
Zana za wasanidi programu
Utendaji wa AI
Mifumo isiyo na uhakika
Uundaji wa programu meta_description: "Gundua jinsi ya kuandika na kuboresha zana za wakala wa AI zenye ubora wa juu ukitumia Anthropic Claude. Jifunze kujenga mifumo ya majaribio, tathmini kamili, na ushirikiano wa wakala kwa utendaji bora wa AI." image: "/images/articles/writing-tools-for-agents.png" image_alt: "Mchoro wa tathmini na uboreshaji wa zana za wakala wa AI kwa kutumia Claude Code kwa utendaji bora." quality_score: 94 content_score: 93 seo_score: 95 companies:
Anthropic schema_type: "NewsArticle" reading_time: 7 faq:
question: "Itifaki ya Muktadha wa Mfumo (MCP) ni nini na inahusianaje na mawakala wa AI?" answer: "Itifaki ya Muktadha wa Mfumo (MCP) ni mfumo ulioundwa kuwapa uwezo mawakala wa lugha kubwa (LLM) kwa kuwapa ufikiaji wa zana zinazoweza kufikia mamia, kuwawezesha kutatua kazi ngumu za ulimwengu halisi. Inafafanua njia sanifu kwa mawakala kuingiliana na mifumo ya nje na vyanzo vya data, ikibadilisha jinsi mawakala wa AI wanavyoweza kutumia programu yenye uhakika. Badala ya mawakala kutegemea tu ujuzi wao wa ndani, MCP inawaruhusu kutumia zana maalum, kama vile binadamu anavyotumia programu mbalimbali au marejeo kukamilisha kazi, na hivyo kupanua kwa kiasi kikubwa uwezo na ufanisi wao katika nyanja mbalimbali."
question: "Kwa nini kubuni zana mahsusi kwa mawakala wa AI wasio na uhakika ni tofauti na uundaji wa programu za jadi?" answer: "Uundaji wa programu za jadi kwa kawaida huhusisha kuunda mikataba kati ya mifumo yenye uhakika, ambapo pembejeo fulani huzaa matokeo yale yale yanayotabirika kila wakati. Hata hivyo, mawakala wa AI hawana uhakika, ikimaanisha kwamba majibu yao yanaweza kutofautiana hata kwa hali za kuanzia zinazofanana. Tofauti hii ya kimsingi inahitaji kufikiria upya muundo wa zana. Badala ya kudhani mwingiliano sahihi na tuli, zana za mawakala wa AI lazima ziwe imara vya kutosha kushughulikia hoja za wakala zinazotofautiana, uwezekano wa kutokuelewana, au hata 'hallucinations'. Lengo ni kufanya zana 'ergonomic' kwa mawakala, kuwezesha mikakati yao tofauti ya kutatua matatizo, jambo ambalo mara nyingi hupelekea zana kuwa rahisi kutumia kwa watumiaji wa binadamu pia."
question: "Ni hatua gani muhimu katika kutathmini utendaji wa zana za wakala wa AI?" answer: "Kutathmini zana za wakala wa AI kunahusisha mbinu ya kimfumo kuanzia kuzalisha seti mbalimbali za kazi za tathmini za ulimwengu halisi. Kazi hizi zinapaswa kuwa ngumu vya kutosha kujaribu zana kwa kina, ikiwezekana zinahitaji miito mingi ya zana. Kisha, tathmini inaendeshwa kiprogramu, kwa kawaida kwa kutumia vitanzi vya wakala vinavyoiga jinsi wakala angeingiliana na zana. Metriki muhimu zinazokusanywa ni pamoja na usahihi, muda wote wa kuendesha, idadi ya miito ya zana, matumizi ya tokeni, na makosa ya zana. Mwishowe, kuchambua matokeo kunahusisha kuwa na mawakala kutoa hoja na maoni, kukagua nakala mbichi, na kutambua mifumo katika matumizi ya zana au makosa ili kubainisha maeneo ya kuboresha katika maelezo ya zana, 'schemas', au utekelezaji."
question: "Mawakala wa AI kama Claude wanawezaje kuboresha zana zao wenyewe?" answer: "Anthropic inaonyesha kuwa mawakala wa AI, hasa mifumo kama Claude Code, wanaweza kuwa na jukumu muhimu katika kuboresha zana wanazozitumia wao wenyewe. Hili linafanikiwa kwa kumpa wakala nakala na matokeo kutoka kwa tathmini za zana. Claude anaweza kisha kuchambua mwingiliano huu, kutambua ufanisi mdogo, kutofautiana, au maeneo ambapo maelezo ya zana hayako wazi, na kupendekeza marekebisho. Kwa mfano, inaweza kuhakikisha kuwa utekelezaji wa zana na maelezo yanabaki sawa baada ya mabadiliko au kupendekeza marekebisho kwa vigezo kwa ufanisi bora wa tokeni. Mbinu hii ya ushirikiano inatumia uwezo wa wakala wa kuchambua ili kuendelea kuboresha ubora na urahisi wa matumizi ya zana zake, na kusababisha utendaji bora."
question: "Ni kanuni gani muhimu za kuandika zana zenye ubora wa juu kwa mawakala wa AI?" answer: "Kanuni kadhaa za msingi zinaongoza uundaji wa zana bora kwa mawakala wa AI. Kwanza, kuchagua kwa busara ni zana gani za kutekeleza (na zipi za kuacha) ni muhimu kwa uwazi na ufanisi wa wakala. Pili, kutaja kwa uwazi mipaka ya kazi za zana hupunguza utata kwa wakala. Tatu, zana zinapaswa kurudisha muktadha wenye maana na mfupi kwa mawakala, kusaidia maamuzi yao. Nne, kuboresha majibu ya zana kwa ufanisi wa tokeni ni muhimu kwa kusimamia gharama na kasi ya usindikaji katika mwingiliano wa LLM. Mwisho, uhandisi wa kina wa maelezo na vipimo vya zana huhakikisha mawakala wanaelewa kwa usahihi na kutumia madhumuni na uwezo wa kila zana, kupunguza makosa na kuongeza ufanisi."

Jukumu Muhimu la Zana katika Utendaji wa Wakala wa AI

Katika mazingira yanayoendelea kwa kasi ya AI, ufanisi wa wakala mwenye akili unategemea kwa kiasi kikubwa ubora na umuhimu wa zana anazozitumia. Kadiri mifumo ya akili bandia inavyozidi kuwa na uwezo zaidi, ikiwawezesha kufanya kazi ngumu na zenye hatua nyingi, jinsi wanavyoingiliana na mifumo ya nje – kupitia "zana" – inakuwa muhimu sana. Anthropic, kiongozi katika utafiti na maendeleo ya AI, imetoa maarifa muhimu juu ya jinsi ya kujenga, kutathmini, na hata kuboresha zana hizi, na hivyo kuongeza kwa kiasi kikubwa utendaji wa wakala.

Katika msingi wa mbinu hii kuna Itifaki ya Muktadha wa Mfumo (MCP), mfumo ulioundwa kuwapa uwezo mawakala wa lugha kubwa (LLM) na ufikiaji wa anuwai kubwa ya utendaji. Hata hivyo, kutoa zana tu haitoshi; lazima ziwe na ufanisi mkubwa. Makala haya yanaangazia mbinu zilizothibitishwa za Anthropic za kuboresha mifumo ya AI wakala, ikionyesha jinsi mifumo ya AI kama Claude inavyoweza kushirikiana kuboresha seti zao za zana. Safari kutoka wazo la awali hadi zana iliyoboreshwa inahusisha kujenga mifumo ya majaribio, tathmini kali, na mzunguko wa maoni shirikishi na wakala mwenyewe.

Kuelewa Zana za Wakala wa AI: Mfumo Mpya wa Programu

Kwa kawaida, uundaji wa programu hufanya kazi kwa kanuni za uhakika: ukitoa pembejeo ileile, kazi itazalisha matokeo yale yale kila wakati. Fikiria wito rahisi wa getWeather("NYC"); inafetch hali ya hewa ya New York City kwa njia ileile. Hata hivyo, mawakala wa AI, kama vile Claude wa Anthropic, hufanya kazi kama mifumo isiyo na uhakika. Hii inamaanisha kwamba majibu yao yanaweza kutofautiana hata chini ya hali za mwanzo zinazofanana.

Tofauti hii ya kimsingi inahitaji mabadiliko ya dhana wakati wa kubuni programu kwa ajili ya mawakala. Zana za mawakala wa AI si kazi tu au API za wasanidi wengine; ni miingiliano iliyoundwa kwa ajili ya chombo chenye akili, lakini wakati mwingine kisichotabirika. Mtumiaji anapouliza, "Nilete mwavuli leo?", wakala anaweza kuita zana ya hali ya hewa, kutumia ujuzi wa jumla, au hata kuomba ufafanuzi wa eneo. Mara kwa mara, mawakala wanaweza 'kudanganya' au kushindwa kuelewa jinsi ya kutumia zana kwa usahihi.

Kwa hivyo, lengo ni kuongeza "eneo la uso" ambalo mawakala wanaweza kuwa na ufanisi. Hii inamaanisha kuunda zana ambazo si tu imara bali pia "ergonomic" kwa mawakala kutumia. Kwa kushangaza, uzoefu wa Anthropic unaonyesha kuwa zana zilizoundwa kwa kuzingatia hali isiyo na uhakika ya wakala mara nyingi hugeuka kuwa angavu na rahisi kwa wanadamu kuzielewa pia. Mtazamo huu juu ya uundaji wa zana ni muhimu kufungua uwezo kamili wa mifumo tata kama Claude Opus au Claude Sonnet katika matumizi ya ulimwengu halisi.

Kuendeleza Zana Bora za AI: Kutoka Mfumo wa Majaribio hadi Uboreshaji

Safari ya kuunda zana bora za wakala wa AI ni mchakato wa kurudia wa kujenga, kujaribu, na kuboresha. Anthropic inasisitiza mbinu ya vitendo, kuanzia na ujenzi wa haraka wa mifumo ya majaribio na kisha kuhamia kwenye tathmini kamili.

Kujenga Mfumo wa Majaribio wa Haraka

Kutabiri jinsi mawakala wataingiliana na zana kunaweza kuwa changamoto bila uzoefu wa kivitendo. Hatua ya kwanza inahusisha kuandaa haraka mfumo wa majaribio. Ikiwa wasanidi wanatumia wakala kama Claude Code kwa uundaji wa zana, kutoa nyaraka zilizoandaliwa vizuri kwa maktaba yoyote ya msingi ya programu, API, au SDK (pamoja na MCP SDK) ni muhimu. Faili za 'llms.txt', ambazo mara nyingi hupatikana kwenye tovuti rasmi za nyaraka, zinafaa sana kwa LLM.

Mifumo hii ya majaribio inaweza kufunikwa kwenye seva ya MCP ya ndani au Kiendelezi cha Eneo-kazi (DXT) ili kuwezesha majaribio ya ndani ndani ya Claude Code au programu ya Claude Desktop. Kwa majaribio ya kiprogramu, zana zinaweza pia kupitishwa moja kwa moja kwenye miito ya Anthropic API. Awamu hii ya awali inahimiza wasanidi kujaribu wao wenyewe zana hizo, kukusanya maoni ya watumiaji, na kujenga ufahamu juu ya matumizi yaliyotarajiwa na maelekezo ambayo zana hizo zinapaswa kushughulikia.

Kufanya Tathmini Kamili

Mara tu mfumo wa majaribio unapofanya kazi, hatua inayofuata muhimu ni kupima jinsi wakala anavyotumia zana hizi kwa ufanisi kupitia tathmini ya kimfumo. Hii inahusisha kuzalisha kazi nyingi za tathmini zinazotokana na matukio halisi ya ulimwengu.

Kuzalisha Kazi za Tathmini

Kazi za tathmini zinapaswa kuhamasishwa na maswali halisi ya mtumiaji na kutumia vyanzo vya data halisi. Ni muhimu kuepuka mazingira rahisi ya "sandbox" ambayo hayajaribu vya kutosha ugumu wa zana. Kazi imara za tathmini mara nyingi zinahitaji mawakala kufanya miito mingi ya zana kufikia suluhisho.

Aina ya Kazi	Mfano Imara	Mfano Dhaifu
Kuratibu Mikutano	'Panga mkutano na Jane wiki ijayo kujadili mradi wetu wa hivi punde wa Acme Corp. Ambatisha madokezo kutoka mkutano wetu wa mwisho wa kupanga mradi na uweke nafasi ya chumba cha mkutano.'	'Panga mkutano na jane@acme.corp wiki ijayo.'
Huduma kwa Wateja	'Kitambulisho cha Mteja 9182 kimeripoti kuwa walitozwa mara tatu kwa jaribio moja la ununuzi. Tafuta rekodi zote muhimu na ubainishe ikiwa wateja wengine waliaathiriwa na suala hilo hilo.'	'Tafuta kwenye kumbukumbu za malipo 'purchase_complete' na 'customer_id=9182'.'
Uchambuzi wa Uhifadhi	'Mteja Sarah Chen amewasilisha ombi la kughairi. Andaa ofa ya kumhifadhi. Bainisha: (1) kwanini anaondoka, (2) ni ofa gani ya uhifadhi ingeuvutia zaidi, na (3) hatari zozote tunazopaswa kuzijua kabla ya kutoa ofa.'	'Tafuta ombi la kughairi na Kitambulisho cha Mteja 45892.'

Kila kielelezo kinapaswa kuambatana na jibu au matokeo yanayoweza kuthibitishwa. Vithibitishaji vinaweza kuanzia kulinganisha kamba rahisi hadi tathmini za hali ya juu zaidi zinazohusisha wakala kuhukumu jibu. Ni muhimu kuepuka vithibitishaji vilivyo vikali sana ambavyo vinaweza kukataa majibu halali kutokana na tofauti ndogo za umbizo. Kwa hiari, wasanidi wanaweza kubainisha miito ya zana inayotarajiwa, ingawa hii inapaswa kufanywa kwa uangalifu ili kuepuka kubainisha kupita kiasi au kutoshea kupita kiasi kwa mikakati fulani, kwani mawakala wanaweza kupata njia nyingi halali za suluhisho.

Kuendesha Tathmini Kiprogramu

Anthropic inapendekeza kuendesha tathmini kiprogramu kwa kutumia miito ya moja kwa moja ya LLM API ndani ya vitanzi rahisi vya wakala (k.m., vitanzi vya while vinavyobadilishana kati ya LLM API na miito ya zana). Kila wakala wa tathmini hupewa kielelezo kimoja cha kazi na zana. Katika maelekezo ya mfumo kwa mawakala hawa, ni muhimu kuwaagiza kutoa vitalu vya majibu vilivyoundwa (kwa uthibitishaji), hoja, na vitalu vya maoni kabla ya vitalu vya wito wa zana na majibu. Hii inahimiza tabia za mnyororo wa mawazo (CoT), ikiongeza akili halisi ya LLM. Kipengele cha Claude cha "interleaved thinking" hutoa utendaji sawa mara moja, kikitoa ufafanuzi juu ya kwanini mawakala hufanya chaguzi maalum za zana.

Zaidi ya usahihi wa kiwango cha juu, kukusanya metriki kama vile muda wote wa kukimbia, idadi ya miito ya zana, matumizi ya tokeni, na makosa ya zana ni muhimu. Kufuatilia miito ya zana kunaweza kufichua mtiririko wa kazi wa wakala, ukipendekeza fursa za ujumuishaji wa zana au uboreshaji.

Kuboresha Zana kwa AI: Mbinu Shirikishi ya Claude

Kuchambua matokeo ya tathmini ni awamu muhimu. Mawakala wenyewe wanaweza kuwa washirika muhimu katika mchakato huu, wakibaini masuala na kutoa maoni. Hata hivyo, maoni yao si mara zote yaliyo wazi; kile wanachokiondoa kinaweza kusema mengi kama kile wanachokijumuisha. Wasanidi programu wanapaswa kuchunguza hoja za wakala (CoT), kukagua nakala ghafi (pamoja na miito ya zana na majibu), na kuchambua metriki za miito ya zana. Kwa mfano, miito ya zana inayorudiwa inaweza kuashiria hitaji la kurekebisha upeo wa ukurasa au mipaka ya tokeni, wakati makosa ya mara kwa mara kutokana na vigezo visivyo sahihi yanaweza kuashiria maelezo yasiyoeleweka ya zana.

Mfano mashuhuri kutoka Anthropic ulihusisha zana ya utafutaji wa wavuti ya Claude, ambapo ilikuwa ikiongeza '2025' bila lazima kwenye maswali, na hivyo kupotosha matokeo. Kuboresha maelezo ya zana kulikuwa muhimu katika kuelekeza Claude kwenye mwelekeo sahihi.

Kipengele kipya zaidi cha mbinu ya Anthropic ni uwezo wa kuruhusu mawakala kuchambua matokeo yao wenyewe na kuboresha zana zao. Kwa kuunganisha nakala za tathmini na kuziingiza kwenye Claude Code, wasanidi programu wanaweza kutumia utaalamu wa Claude katika kuchambua mwingiliano tata na kurekebisha zana. Claude ni bora katika kuhakikisha uthabiti kati ya utekelezaji wa zana na maelezo, hata katika mabadiliko mengi. Mzunguko huu wenye nguvu wa maoni unamaanisha kuwa ushauri mwingi wa Anthropic yenyewe juu ya uundaji wa zana umetolewa na kuboreshwa kupitia mchakato huu wa uboreshaji unaosaidiwa na wakala, ukiunga mkono mwelekeo unaokua wa mtiririko wa kazi wa wakala katika uundaji wa programu.

Kanuni Muhimu za Kuunda Zana za Wakala Zenye Ubora wa Juu

Kupitia majaribio ya kina na uboreshaji unaoendeshwa na wakala, Anthropic imebaini kanuni kadhaa za msingi za kuunda zana zenye ubora wa juu kwa mawakala wa AI:

Uchaguzi wa Kimkakati wa Zana: Chagua kwa busara ni zana gani za kutekeleza, na muhimu zaidi, ni zipi usitekeleze. Kuzidi kumbebesha wakala zana zisizo za lazima kunaweza kusababisha kuchanganyikiwa na ukosefu wa ufanisi.
Uwekaji Nafasi wazi wa Majina: Fafanua mipaka na utendaji wazi kwa kila zana kupitia uwekaji nafasi wazi wa majina. Hii inasaidia mawakala kuelewa upeo na kusudi kamili la kila uwezo.
Kurejesha Muktadha Wenye Maana: Zana zinapaswa kurejesha muktadha mfupi na muhimu kwa wakala, kuwezesha kufanya maamuzi sahihi bila habari ndefu au isiyo ya lazima.
Uboreshaji wa Ufanisi wa Tokeni: Boresha majibu ya zana ili yawe na ufanisi wa tokeni. Katika mwingiliano wa LLM, kila tokeni inahesabika kwa gharama na kasi ya usindikaji.
Uhandisi Sahihi wa Maelekezo: Fanya uhandisi wa maelekezo ya kina na vipimo. Maelekezo yaliyo wazi, yasiyo na utata ni muhimu kwa mawakala kutafsiri na kutumia zana kwa usahihi.

Kwa kuzingatia kanuni hizi na kukumbatia mzunguko wa maendeleo wa kurudia, unaosaidiwa na wakala, wasanidi programu wanaweza kujenga zana imara, zenye ufanisi, na zenye tija kubwa ambazo zitaboresha sana utendaji na uwezo wa mawakala wa AI, na hivyo kusukuma mipaka ya kile mifumo hii yenye akili inaweza kufikia.