What is the Model Context Protocol (MCP) and how does it relate to AI agents?

The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.

Why is designing tools specifically for non-deterministic AI agents different from traditional software development?

Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.

What are the critical steps in evaluating the performance of AI agent tools?

Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.

How can AI agents like Claude optimize their own tools?

Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.

What are the key principles for writing high-quality tools for AI agents?

Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Agentų įrankiai: dirbtinio intelekto našumo didinimas optimizuojant su Claude

Įrankių esminis vaidmuo DI agentų našume

Sparčiai besikeičiančioje DI aplinkoje, protingo agento veiksmingumas labai priklauso nuo jo naudojamų įrankių kokybės ir naudingumo. Kadangi dirbtinio intelekto modeliai tampa vis pajėgesni, leidžiantys jiems atlikti sudėtingas, daugiapakopes užduotis, jų sąveika su išorinėmis sistemomis – per "įrankius" – tampa ypač svarbi. Anthropic, DI tyrimų ir plėtros lyderė, pasidalino svarbiomis įžvalgomis, kaip kurti, vertinti ir net optimizuoti šiuos įrankius, žymiai padidinant agentų našumą.

Šio požiūrio esmė yra Modelio konteksto protokolas (MCP) – sistema, sukurta suteikti didelių kalbos modelių (DKM) agentams prieigą prie plataus funkcijų spektro. Tačiau vien tik įrankių teikimo nepakanka; jie turi būti maksimaliai efektyvūs. Šiame straipsnyje gilinamasi į Anthropic patikrintas technikas, skirtas agentinių DI sistemų tobulinimui, pabrėžiant, kaip DI modeliai, tokie kaip Claude, gali bendradarbiaudami tobulinti savo įrankių rinkinius. Kelias nuo pirminės koncepcijos iki optimizuoto įrankio apima prototipų kūrimą, griežtą vertinimą ir bendradarbiavimo grįžtamojo ryšio ciklą su pačiu agentu.

DI agentų įrankių supratimas: nauja programinės įrangos paradigma

Tradiciniame programinės įrangos kūrime laikomasi deterministinių principų: esant tai pačiai įvesčiai, funkcija visada sukurs tą patį rezultatą. Apsvarstykite paprastą getWeather("NYC") iškvietimą; jis nuolat ir identiškai gauna Niujorko orus. Tačiau DI agentai, tokie kaip Anthropic Claude, veikia kaip nedeterministinės sistemos. Tai reiškia, kad jų atsakymai gali skirtis net esant identiškoms pradinėms sąlygoms.

Šis esminis skirtumas reikalauja paradigmos pokyčių kuriant programinę įrangą agentams. DI agentų įrankiai nėra tik funkcijos ar API kitiems kūrėjams; tai yra sąsajos, skirtos protingam, tačiau kartais nenuspėjamam subjektui. Kai vartotojas paklausia: "Ar šiandien man reikia pasiimti skėtį?", agentas gali iškviesti orų įrankį, pasinaudoti bendromis žiniomis ar net paprašyti patikslinti vietą. Kartais agentai gali haliucinuoti arba nesuprasti, kaip tinkamai naudoti įrankį.

Todėl tikslas yra padidinti 'paviršiaus plotą', kuriame agentai gali būti veiksmingi. Tai reiškia, kad reikia kurti įrankius, kurie būtų ne tik patikimi, bet ir 'ergonomiški' agentams naudoti. Įdomu tai, kad Anthropic patirtis rodo, jog įrankiai, sukurti atsižvelgiant į nedeterministinį agento pobūdį, dažnai pasirodo esą stebėtinai intuityvūs ir lengvai suprantami ir žmonėms. Ši įrankių kūrimo perspektyva yra raktas į visiško potencialo atskleidimą sudėtingiems modeliams, tokiems kaip Claude Opus ar Claude Sonnet, realaus pasaulio programose.

Efektyvių DI įrankių kūrimas: nuo prototipo iki optimizavimo

Efektyvių DI agentų įrankių kūrimo kelias yra iteracinis kūrimo, testavimo ir tobulinimo procesas. Anthropic pabrėžia praktinį požiūrį, pradedant greitu prototipų kūrimu, o vėliau pereinant prie išsamaus vertinimo.

Greito prototipo kūrimas

Numatyti, kaip agentai sąveikaus su įrankiais, gali būti sudėtinga be praktinės patirties. Pirmasis žingsnis apima greitą prototipo sukūrimą. Jei kūrėjai naudoja agentą, pvz., Claude Code, įrankių kūrimui, gerai struktūrizuotos dokumentacijos teikimas bet kokioms pagrindinėms programinės įrangos bibliotekoms, API ar SDK (įskaitant MCP SDK) yra labai svarbus. Plokšti 'llms.txt' failai, dažnai randami oficialiose dokumentacijos svetainėse, yra ypač patogūs DKM.

Šie prototipai gali būti apvynioti vietiniu MCP serveriu arba darbalaukio plėtiniu (DXT), kad būtų palengvintas vietinis testavimas Claude Code arba Claude Desktop programėlėje. Programiniam testavimui įrankius taip pat galima tiesiogiai perduoti Anthropic API iškvietimams. Šiame pradiniame etape kūrėjai skatinami asmeniškai išbandyti įrankius, rinkti naudotojų atsiliepimus ir ugdyti intuiciją dėl numatomų naudojimo atvejų ir užklausų, kurias įrankiai turi apdoroti.

Išsamaus vertinimo atlikimas

Kai prototipas veikia, kitas kritinis žingsnis yra išmatuoti, kaip efektyviai agentas naudoja šiuos įrankius, atliekant sistemingą vertinimą. Tai apima daugybės vertinimo užduočių, pagrįstų realaus pasaulio scenarijais, generavimą.

Vertinimo užduočių generavimas

Vertinimo užduotys turėtų būti įkvėptos realių vartotojų užklausų ir naudoti realistiškus duomenų šaltinius. Svarbu vengti supaprastintų 'smėlio dėžės' aplinkų, kurios tinkamai nepatikrina įrankių sudėtingumo. Stiprios vertinimo užduotys dažnai reikalauja, kad agentai atliktų kelis įrankių iškvietimus, kad pasiektų sprendimą.

Užduoties tipas	Geras pavyzdys	Silpnas pavyzdys
Susitikimo planavimas	"Suplanuokite susitikimą su Jane kitą savaitę, kad aptartume mūsų naujausią "Acme Corp" projektą. Pridėkite užrašus iš paskutinio mūsų projekto planavimo susitikimo ir rezervuokite konferencijų salę."	"Suplanuokite susitikimą su jane@acme.corp kitą savaitę."
Klientų aptarnavimas	"Klientas, kurio ID yra 9182, pranešė, kad jam tris kartus buvo apmokestinta už vieną pirkimo bandymą. Raskite visus susijusius žurnalų įrašus ir nustatykite, ar kiti klientai buvo paveikti tos pačios problemos."	"Ieškoti mokėjimų žurnaluose 'purchase_complete' ir 'customer_id=9182'."
Klientų išlaikymo analizė	"Klientė Sarah Chen ką tik pateikė atšaukimo prašymą. Parengti išlaikymo pasiūlymą. Nustatyti: (1) kodėl jie išeina, (2) koks išlaikymo pasiūlymas būtų patraukliausias, ir (3) kokius rizikos veiksnius turėtume žinoti prieš teikiant pasiūlymą."	"Rasti atšaukimo užklausą pagal kliento ID 45892."

Kiekviena užklausa turėtų būti suporuota su patikrinamu atsakymu arba rezultatu. Tikrintojai gali svyruoti nuo paprastų eilučių palyginimų iki sudėtingesnių vertinimų, pasitelkiant agentą atsakymui įvertinti. Labai svarbu vengti pernelyg griežtų tikrintojų, kurie gali atmesti galiojančius atsakymus dėl nedidelių formatavimo skirtumų. Pasirinktinai kūrėjai gali nurodyti numatomus įrankių iškvietimus, nors tai turėtų būti daroma atsargiai, kad būtų išvengta per didelio specifikavimo ar pritaikymo konkrečioms strategijoms, nes agentai gali rasti kelis galiojančius sprendimo kelius.

Vertinimo vykdymas programiškai

Anthropic rekomenduoja vykdyti vertinimus programiškai, naudojant tiesioginius DKM API iškvietimus paprastuose agentiniuose cikluose (pvz., while cikluose, pakaitomis tarp DKM API ir įrankių iškvietimų). Kiekvienam vertinimo agentui pateikiama viena užduoties užklausa ir įrankiai. Šių agentų sistemos užklausose naudinga nurodyti jiems išvesti struktūrizuotus atsakymų blokus (patvirtinimui), samprotavimus ir atsiliepimų blokus prieš įrankių iškvietimo ir atsakymų blokus. Tai skatina 'minčių grandinės' (CoT) elgseną, didinant DKM efektyvųjį intelektą. Claude 'persipynusio mąstymo' funkcija siūlo panašias galimybes iškart, suteikiant įžvalgų, kodėl agentai pasirenka konkrečius įrankius.

Be aukščiausio lygio tikslumo, gyvybiškai svarbu rinkti metrikas, tokias kaip bendras vykdymo laikas, įrankių iškvietimų skaičius, žetonų suvartojimas ir įrankių klaidos. Įrankių iškvietimų stebėjimas gali atskleisti įprastus agentų darbo srautus, siūlant galimybes įrankių konsolidavimui ar patobulinimui.

Įrankių optimizavimas su DI: Claude bendradarbiavimo metodas

Vertinimo rezultatų analizė yra kritinis etapas. Patys agentai gali būti neįkainojami partneriai šiame procese, aptinkant problemas ir teikiant atsiliepimus. Tačiau jų atsiliepimai ne visada yra aiškūs; tai, ką jie praleidžia, gali būti taip pat iškalbinga, kaip ir tai, ką jie įtraukia. Kūrėjai turėtų kruopščiai išnagrinėti agentų samprotavimus (CoT), peržiūrėti neapdorotus įrašus (įskaitant įrankių iškvietimus ir atsakymus) ir analizuoti įrankių iškvietimo metrikas. Pavyzdžiui, pasikartojantys įrankių iškvietimai gali signalizuoti apie poreikį koreguoti puslapiavimą ar žetonų limitus, o dažnos klaidos dėl neteisingų parametrų gali reikšti neaiškius įrankių aprašymus.

Ryškus Anthropic pavyzdys apėmė Claude žiniatinklio paieškos įrankį, kur jis be reikalo pridėdavo '2025' prie užklausų, iškreipdamas rezultatus. Įrankio aprašymo tobulinimas buvo esminis siekiant nukreipti Claude teisinga linkme.

Inovatyviausias Anthropic metodikos aspektas yra galimybė leisti agentams analizuoti savo pačių rezultatus ir tobulinti savo įrankius. Sudėjus vertinimo įrašus ir pateikus juos Claude Code, kūrėjai gali pasinaudoti Claude patirtimi analizuojant sudėtingas sąveikas ir refaktorizuojant įrankius. Claude puikiai užtikrina nuoseklumą tarp įrankių įdiegimo ir aprašymų, net ir po daugybės pakeitimų. Šis galingas grįžtamojo ryšio ciklas reiškia, kad didžioji dalis Anthropic patarimų dėl įrankių kūrimo buvo sugeneruota ir patobulinta per patį agentų pagalba atliekamo optimizavimo procesą, atspindint augančią agentinių darbo eigų tendenciją programinės įrangos kūrime.

Pagrindiniai aukštos kokybės agentų įrankių kūrimo principai

Per plataus masto eksperimentus ir agentų valdomą optimizavimą, Anthropic nustatė keletą pagrindinių principų, skirtų aukštos kokybės įrankių kūrimui DI agentams:

Strateginis įrankių pasirinkimas: Išmintingai pasirinkite, kuriuos įrankius diegti, ir kritiškai – kurių ne. Perkrovus agentą nereikalingais įrankiais, gali kilti painiava ir neefektyvumas.
Aiškus pavadinimų erdvės (Namespacing) naudojimas: Apibrėžkite aiškias ribas ir funkcionalumą kiekvienam įrankiui efektyviai naudojant pavadinimų erdvę. Tai padeda agentams tiksliai suprasti kiekvienos galimybės apimtį ir paskirtį.
Prasmingo konteksto grąžinimas: Įrankiai turėtų grąžinti glaustą ir aktualų kontekstą agentui, leidžiantį priimti pagrįstus sprendimus be perteklinės ar nereikalingos informacijos.
Žetonų efektyvumo optimizavimas: Optimizuokite įrankių atsakymus, kad jie būtų efektyvūs žetonų atžvilgiu. DKM sąveikose kiekvienas žetonas yra svarbus tiek kainos, tiek apdorojimo greičio požiūriu.
Tikslus užklausų inžinerija: Kruopščiai apdorokite įrankių aprašymus ir specifikacijas. Aiškios, nedviprasmiškos instrukcijos yra gyvybiškai svarbios, kad agentai teisingai interpretuotų ir naudotų įrankius.

Laikydamiesi šių principų ir taikydami iteracinį, agentų pagalba paremtą kūrimo ciklą, kūrėjai gali sukurti patikimus, efektyvius ir labai veiksmingus įrankius, kurie žymiai padidina DI agentų našumą ir galimybes, praplečiant ribas, ką šios išmaniosios sistemos gali pasiekti.