What is the Model Context Protocol (MCP) and how does it relate to AI agents?

The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.

Why is designing tools specifically for non-deterministic AI agents different from traditional software development?

Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.

What are the critical steps in evaluating the performance of AI agent tools?

Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.

How can AI agents like Claude optimize their own tools?

Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.

What are the key principles for writing high-quality tools for AI agents?

Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

एजेंट टूल: क्लाउड ऑप्टिमाइजेशन के साथ एआई प्रदर्शन को बढ़ाना

एआई एजेंट प्रदर्शन में टूल की महत्वपूर्ण भूमिका

एआई के तेजी से विकसित हो रहे परिदृश्य में, एक बुद्धिमान एजेंट की प्रभावकारिता उसके द्वारा उपयोग किए जाने वाले टूल की गुणवत्ता और उपयोगिता पर महत्वपूर्ण रूप से निर्भर करती है। जैसे-जैसे आर्टिफिशियल इंटेलिजेंस मॉडल तेजी से सक्षम होते जा रहे हैं, जिससे वे जटिल, बहु-चरणीय कार्यों को पूरा कर पाते हैं, बाहरी प्रणालियों के साथ उनके इंटरैक्ट करने का तरीका – "टूल" के माध्यम से – सर्वोपरि हो जाता है। एआई अनुसंधान और विकास में अग्रणी Anthropic ने इन टूल को कैसे बनाया जाए, उनका मूल्यांकन कैसे किया जाए और उन्हें कैसे अनुकूलित किया जाए, इस बारे में महत्वपूर्ण जानकारी साझा की है, जिससे एजेंट के प्रदर्शन में नाटकीय रूप से वृद्धि हुई है।

इस दृष्टिकोण के मूल में मॉडल कॉन्टेक्स्ट प्रोटोकॉल (MCP) निहित है, जो बड़े भाषा मॉडल (LLM) एजेंटों को कार्यक्षमताओं की एक विशाल श्रृंखला तक पहुंच प्रदान करने के लिए डिज़ाइन की गई एक प्रणाली है। हालांकि, केवल टूल प्रदान करना पर्याप्त नहीं है; उन्हें अधिकतम प्रभावी होना चाहिए। यह लेख एजेंटिक एआई सिस्टम को बेहतर बनाने के लिए Anthropic की सिद्ध तकनीकों पर प्रकाश डालता है, जिसमें बताया गया है कि Claude जैसे एआई मॉडल कैसे अपने स्वयं के टूलसेट को सहयोगात्मक रूप से परिष्कृत कर सकते हैं। प्रारंभिक अवधारणा से लेकर अनुकूलित टूल तक की यात्रा में प्रोटोटाइपिंग, कठोर मूल्यांकन और स्वयं एजेंट के साथ एक सहयोगात्मक प्रतिक्रिया लूप शामिल है।

एआई एजेंट टूल को समझना: सॉफ्टवेयर के लिए एक नया प्रतिमान

परंपरागत रूप से, सॉफ्टवेयर विकास नियतात्मक सिद्धांतों पर काम करता है: समान इनपुट दिए जाने पर, एक फ़ंक्शन हमेशा समान आउटपुट देगा। एक साधारण getWeather("NYC") कॉल पर विचार करें; यह लगातार न्यूयॉर्क शहर के मौसम को एक समान तरीके से प्राप्त करता है। हालांकि, Anthropic के Claude जैसे एआई एजेंट गैर-नियतात्मक प्रणालियों के रूप में काम करते हैं। इसका मतलब है कि उनकी प्रतिक्रियाएं समान प्रारंभिक स्थितियों में भी भिन्न हो सकती हैं।

यह मौलिक अंतर एजेंटों के लिए सॉफ्टवेयर डिज़ाइन करते समय एक प्रतिमान बदलाव की आवश्यकता को जन्म देता है। एआई एजेंटों के लिए टूल केवल अन्य डेवलपर्स के लिए फ़ंक्शन या एपीआई नहीं हैं; वे एक बुद्धिमान, फिर भी कभी-कभी अप्रत्याशित, इकाई के लिए डिज़ाइन किए गए इंटरफेस हैं। जब कोई उपयोगकर्ता पूछता है, "क्या मुझे आज छाता लाना चाहिए?", तो एक एजेंट मौसम टूल को कॉल कर सकता है, सामान्य ज्ञान का उपयोग कर सकता है, या यहां तक कि स्थान पर स्पष्टीकरण भी मांग सकता है। कभी-कभी, एजेंट मतिभ्रम कर सकते हैं या किसी टूल का सही ढंग से उपयोग करना समझने में विफल हो सकते हैं।

इसलिए, लक्ष्य उस "सतह क्षेत्र" को बढ़ाना है जिस पर एजेंट प्रभावी हो सकते हैं। इसका मतलब ऐसे टूल बनाना है जो न केवल मजबूत हों बल्कि एजेंटों के उपयोग के लिए "एर्गोनोमिक" भी हों। दिलचस्प बात यह है कि Anthropic का अनुभव दिखाता है कि एजेंट की गैर-नियतात्मक प्रकृति को ध्यान में रखकर डिज़ाइन किए गए टूल अक्सर मनुष्यों के लिए भी आश्चर्यजनक रूप से सहज और समझने में आसान होते हैं। टूल विकास पर यह परिप्रेक्ष्य वास्तविक दुनिया के अनुप्रयोगों में Claude Opus या Claude Sonnet जैसे परिष्कृत मॉडलों की पूरी क्षमता को अनलॉक करने की कुंजी है।

प्रभावी एआई टूल विकसित करना: प्रोटोटाइप से अनुकूलन तक

प्रभावी एआई एजेंट टूल बनाने की यात्रा निर्माण, परीक्षण और परिशोधन की एक पुनरावृति प्रक्रिया है। Anthropic एक व्यावहारिक दृष्टिकोण पर जोर देता है, जिसकी शुरुआत तीव्र प्रोटोटाइपिंग से होती है और फिर व्यापक मूल्यांकन की ओर बढ़ती है।

एक तीव्र प्रोटोटाइप का निर्माण

व्यावहारिक अनुभव के बिना यह अनुमान लगाना चुनौतीपूर्ण हो सकता है कि एजेंट टूल के साथ कैसे इंटरैक्ट करेंगे। पहला कदम जल्दी से एक प्रोटोटाइप बनाना है। यदि डेवलपर्स टूल निर्माण के लिए Claude Code जैसे एजेंट का लाभ उठा रहे हैं, तो किसी भी अंतर्निहित सॉफ्टवेयर लाइब्रेरी, एपीआई, या एसडीके (एमसीपी एसडीके सहित) के लिए अच्छी तरह से संरचित दस्तावेज़ प्रदान करना महत्वपूर्ण है। फ्लैट 'llms.txt' फाइलें, जो अक्सर आधिकारिक दस्तावेज़ साइटों पर पाई जाती हैं, विशेष रूप से LLM के अनुकूल होती हैं।

इन प्रोटोटाइपों को Claude Code या Claude Desktop ऐप के भीतर स्थानीय परीक्षण की सुविधा के लिए एक स्थानीय MCP सर्वर या डेस्कटॉप एक्सटेंशन (DXT) में लपेटा जा सकता है। प्रोग्रामेटिक परीक्षण के लिए, टूल को सीधे Anthropic API कॉल में भी पारित किया जा सकता है। यह प्रारंभिक चरण डेवलपर्स को व्यक्तिगत रूप से टूल का परीक्षण करने, उपयोगकर्ता प्रतिक्रिया एकत्र करने और अपेक्षित उपयोग के मामलों और प्रॉम्प्ट के बारे में अंतर्ज्ञान विकसित करने के लिए प्रोत्साहित करता है जिन्हें टूल को संभालना है।

एक व्यापक मूल्यांकन चलाना

एक बार प्रोटोटाइप कार्यात्मक हो जाने के बाद, अगला महत्वपूर्ण कदम यह मापना है कि एजेंट इन टूल का कितनी प्रभावी ढंग से उपयोग करता है, एक व्यवस्थित मूल्यांकन के माध्यम से। इसमें वास्तविक दुनिया के परिदृश्यों पर आधारित कई मूल्यांकन कार्य उत्पन्न करना शामिल है।

मूल्यांकन कार्य उत्पन्न करना

मूल्यांकन कार्य वास्तविक उपयोगकर्ता प्रश्नों से प्रेरित होने चाहिए और यथार्थवादी डेटा स्रोतों का उपयोग करना चाहिए। सरलीकृत "सैंडबॉक्स" वातावरण से बचना महत्वपूर्ण है जो टूल की जटिलता का पर्याप्त रूप से स्ट्रेस-टेस्ट नहीं करते हैं। मजबूत मूल्यांकन कार्यों में अक्सर एजेंटों को समाधान प्राप्त करने के लिए कई टूल कॉल करने की आवश्यकता होती है।

कार्य प्रकार	मजबूत उदाहरण	कमजोर उदाहरण
मीटिंग शेड्यूल करना	"अगले हफ्ते जेन के साथ हमारी नवीनतम Acme Corp परियोजना पर चर्चा करने के लिए एक मीटिंग शेड्यूल करें। हमारी पिछली परियोजना नियोजन मीटिंग के नोट्स संलग्न करें और एक कॉन्फ्रेंस रूम आरक्षित करें।"	"अगले हफ्ते jane@acme.corp के साथ एक मीटिंग शेड्यूल करें।"
ग्राहक सेवा	"ग्राहक आईडी 9182 ने बताया कि उन्हें एक ही खरीद के प्रयास के लिए तीन बार शुल्क लिया गया था। सभी प्रासंगिक लॉग प्रविष्टियाँ खोजें और निर्धारित करें कि क्या कोई अन्य ग्राहक उसी मुद्दे से प्रभावित हुए थे।"	"भुगतान लॉग में 'purchase_complete' और 'customer_id=9182' खोजें।"
रिटेंशन विश्लेषण	"ग्राहक सारा चेन ने अभी-अभी रद्दीकरण अनुरोध सबमिट किया है। एक प्रतिधारण प्रस्ताव तैयार करें। निर्धारित करें: (1) वे क्यों छोड़ रहे हैं, (2) कौन सा प्रतिधारण प्रस्ताव सबसे अधिक आकर्षक होगा, और (3) कोई भी जोखिम कारक जिनकी हमें प्रस्ताव देने से पहले जानकारी होनी चाहिए।"	"ग्राहक आईडी 45892 द्वारा रद्दीकरण अनुरोध खोजें।"

प्रत्येक प्रॉम्प्ट को एक सत्यापन योग्य प्रतिक्रिया या परिणाम के साथ जोड़ा जाना चाहिए। सत्यापनकर्ता सरल स्ट्रिंग तुलना से लेकर प्रतिक्रिया का न्याय करने के लिए एक एजेंट को सूचीबद्ध करने वाले अधिक उन्नत मूल्यांकनों तक हो सकते हैं। अत्यधिक सख्त सत्यापनकर्ताओं से बचना महत्वपूर्ण है जो मामूली स्वरूपण अंतर के कारण वैध प्रतिक्रियाओं को अस्वीकार कर सकते हैं। वैकल्पिक रूप से, डेवलपर्स अपेक्षित टूल कॉल निर्दिष्ट कर सकते हैं, हालांकि यह सावधानी से किया जाना चाहिए ताकि अधिक-विशिष्टता या विशेष रणनीतियों पर अधिक-फिटिंग से बचा जा सके, क्योंकि एजेंट समाधान के लिए कई वैध रास्ते पा सकते हैं।

प्रोग्रामेटिक रूप से मूल्यांकन चलाना

Anthropic सरल एजेंटिक लूप (जैसे, LLM API और टूल कॉल के बीच वैकल्पिक while लूप) के भीतर सीधे LLM API कॉल का उपयोग करके प्रोग्रामेटिक रूप से मूल्यांकन चलाने की सलाह देता है। प्रत्येक मूल्यांकन एजेंट को एक एकल कार्य प्रॉम्प्ट और टूल दिए जाते हैं। इन एजेंटों के लिए सिस्टम प्रॉम्प्ट में, उन्हें संरचित प्रतिक्रिया ब्लॉक (सत्यापन के लिए), तर्क, और टूल कॉल और प्रतिक्रिया ब्लॉक से पहले प्रतिक्रिया ब्लॉक आउटपुट करने का निर्देश देना फायदेमंद होता है। यह चेन-ऑफ-थॉट (CoT) व्यवहार को प्रोत्साहित करता है, जिससे LLM की प्रभावी बुद्धिमत्ता बढ़ती है। Claude की "interleaved thinking" सुविधा आउट-ऑफ-द-बॉक्स समान कार्यक्षमता प्रदान करती है, जिससे यह जानकारी मिलती है कि एजेंट विशिष्ट टूल विकल्प क्यों चुनते हैं।

शीर्ष-स्तरीय सटीकता से परे, कुल रनटाइम, टूल कॉल की संख्या, टोकन खपत और टूल त्रुटियों जैसे मेट्रिक्स एकत्र करना महत्वपूर्ण है। टूल कॉल को ट्रैक करने से सामान्य एजेंट वर्कफ़्लो का पता चल सकता है, जो टूल समेकन या परिशोधन के अवसरों का सुझाव देता है।

एआई के साथ टूल को ऑप्टिमाइज़ करना: Claude का सहयोगात्मक दृष्टिकोण

मूल्यांकन परिणामों का विश्लेषण एक महत्वपूर्ण चरण है। एजेंट स्वयं इस प्रक्रिया में अमूल्य भागीदार हो सकते हैं, समस्याओं का पता लगा सकते हैं और प्रतिक्रिया प्रदान कर सकते हैं। हालांकि, उनकी प्रतिक्रिया हमेशा स्पष्ट नहीं होती है; जो वे छोड़ते हैं वह उतना ही खुलासा कर सकता है जितना वे शामिल करते हैं। डेवलपर्स को एजेंट तर्क (CoT) की जांच करनी चाहिए, कच्चे प्रतिलेखों (टूल कॉल और प्रतिक्रियाओं सहित) की समीक्षा करनी चाहिए, और टूल कॉलिंग मेट्रिक्स का विश्लेषण करना चाहिए। उदाहरण के लिए, अनावश्यक टूल कॉल पेजिंग या टोकन सीमाओं को समायोजित करने की आवश्यकता का संकेत दे सकते हैं, जबकि अमान्य मापदंडों के कारण बार-बार होने वाली त्रुटियां अस्पष्ट टूल विवरण का संकेत दे सकती हैं।

Anthropic से एक उल्लेखनीय उदाहरण में Claude के वेब खोज टूल शामिल था, जहां यह अनावश्यक रूप से '2025' को प्रश्नों में जोड़ रहा था, जिससे परिणाम पक्षपाती हो रहे थे। Claude को सही दिशा में ले जाने के लिए टूल विवरण में सुधार करना महत्वपूर्ण था।

Anthropic की कार्यप्रणाली का सबसे नवीन पहलू एजेंटों को उनके अपने परिणामों का विश्लेषण करने और अपने टूल को बेहतर बनाने की क्षमता देना है। मूल्यांकन प्रतिलेखों को जोड़कर और उन्हें Claude Code में फीड करके, डेवलपर्स जटिल इंटरैक्शन का विश्लेषण करने और टूल को रिफैक्टर करने में Claude की विशेषज्ञता का लाभ उठा सकते हैं। Claude कई परिवर्तनों के बावजूद टूल कार्यान्वयन और विवरणों के बीच स्थिरता सुनिश्चित करने में उत्कृष्ट है। यह शक्तिशाली फीडबैक लूप का मतलब है कि टूल विकास पर Anthropic की अपनी अधिकांश सलाह एजेंट-सहायता प्राप्त अनुकूलन की इस प्रक्रिया के माध्यम से उत्पन्न और परिष्कृत की गई है, जो सॉफ्टवेयर विकास में एजेंटिक वर्कफ़्लो के बढ़ते रुझान को प्रतिध्वनित करती है।

उच्च-गुणवत्ता वाले एजेंट टूल विकास के लिए मुख्य सिद्धांत

व्यापक प्रयोग और एजेंट-संचालित अनुकूलन के माध्यम से, Anthropic ने एआई एजेंटों के लिए उच्च-गुणवत्ता वाले टूल तैयार करने के लिए कई मुख्य सिद्धांतों की पहचान की है:

रणनीतिक टूल चयन: बुद्धिमानी से चुनें कि कौन से टूल लागू करने हैं, और महत्वपूर्ण रूप से, कौन से नहीं करने हैं। अनावश्यक टूल के साथ एक एजेंट को अधिभारित करने से भ्रम और अक्षमता हो सकती है।
स्पष्ट नामस्थानिकरण: प्रभावी नामस्थानिकरण के माध्यम से प्रत्येक टूल के लिए स्पष्ट सीमाएं और कार्यक्षमताओं को परिभाषित करें। यह एजेंटों को प्रत्येक क्षमता के सटीक दायरे और उद्देश्य को समझने में मदद करता है।
सार्थक संदर्भ वापसी: टूल को एजेंट को संक्षिप्त और प्रासंगिक संदर्भ लौटाना चाहिए, जिससे विस्तृत या अनावश्यक जानकारी के बिना सूचित निर्णय लेने में मदद मिल सके।
टोकन दक्षता अनुकूलन: टोकन-कुशल होने के लिए टूल प्रतिक्रियाओं को अनुकूलित करें। एलएलएम इंटरैक्शन में, प्रत्येक टोकन लागत और प्रसंस्करण गति दोनों के लिए मायने रखता है।
सटीक प्रॉम्प्ट इंजीनियरिंग: टूल विवरण और विशिष्टताओं का सावधानीपूर्वक प्रॉम्प्ट-इंजीनियरिंग करें। स्पष्ट, असंदिग्ध निर्देश एजेंटों के लिए टूल को सही ढंग से व्याख्या करने और उपयोग करने के लिए महत्वपूर्ण हैं।

इन सिद्धांतों का पालन करके और एक पुनरावृति, एजेंट-सहायता प्राप्त विकास चक्र को अपनाकर, डेवलपर्स मजबूत, कुशल और अत्यधिक प्रभावी टूल बना सकते हैं जो एआई एजेंटों के प्रदर्शन और क्षमताओं को महत्वपूर्ण रूप से बढ़ाते हैं, इन बुद्धिमान प्रणालियों की प्राप्तियों की सीमाओं को आगे बढ़ाते हैं।