What is the Model Context Protocol (MCP) and how does it relate to AI agents?

The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.

Why is designing tools specifically for non-deterministic AI agents different from traditional software development?

Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.

What are the critical steps in evaluating the performance of AI agent tools?

Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.

How can AI agents like Claude optimize their own tools?

Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.

What are the key principles for writing high-quality tools for AI agents?

Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Alat Ejen: Meningkatkan Prestasi AI dengan Pengoptimuman Claude

Peranan Penting Alat dalam Prestasi Ejen AI

Dalam landskap AI yang pesat berkembang, keberkesanan ejen pintar sangat bergantung pada kualiti dan kegunaan alat yang digunakannya. Apabila model kecerdasan buatan menjadi semakin berkebolehan, membolehkan mereka melaksanakan tugas yang kompleks dan berbilang langkah, cara mereka berinteraksi dengan sistem luaran – melalui "alat" – menjadi sangat penting. Anthropic, peneraju dalam penyelidikan dan pembangunan AI, telah berkongsi pandangan penting tentang cara membina, menilai, dan bahkan mengoptimumkan alat ini, meningkatkan prestasi ejen secara dramatik.

Pusat pendekatan ini terletak pada Model Context Protocol (MCP), sebuah sistem yang direka untuk memperkasa ejen model bahasa besar (LLM) dengan akses kepada pelbagai fungsi. Walau bagaimanapun, menyediakan alat sahaja tidak mencukupi; alat tersebut mestilah berkesan secara maksimum. Artikel ini menyelami teknik Anthropic yang terbukti untuk meningkatkan sistem AI agen, menonjolkan bagaimana model AI seperti Claude boleh memperhalusi set alat mereka sendiri secara kolaboratif. Perjalanan dari konsep awal kepada alat yang dioptimumkan melibatkan prototaip, penilaian yang teliti, dan gelung maklum balas kolaboratif dengan ejen itu sendiri.

Memahami Alat Ejen AI: Paradigma Baharu untuk Perisian

Secara tradisional, pembangunan perisian beroperasi berdasarkan prinsip deterministik: dengan input yang sama, fungsi akan sentiasa menghasilkan output yang sama. Pertimbangkan panggilan getWeather("NYC") yang mudah; ia secara konsisten mengambil cuaca New York City dengan cara yang sama. Walau bagaimanapun, ejen AI, seperti Claude dari Anthropic, beroperasi sebagai sistem tidak deterministik. Ini bermakna respons mereka boleh berbeza walaupun di bawah keadaan awal yang sama.

Perbezaan asas ini memerlukan anjakan paradigma apabila mereka bentuk perisian untuk ejen. Alat untuk ejen AI bukan sekadar fungsi atau API untuk pembangun lain; ia adalah antara muka yang direka untuk entiti yang pintar, namun kadangkala tidak dapat diramalkan. Apabila pengguna bertanya, "Patutkah saya membawa payung hari ini?", ejen mungkin memanggil alat cuaca, menggunakan pengetahuan umum, atau bahkan meminta penjelasan mengenai lokasi. Kadangkala, ejen mungkin berhalusinasi atau gagal memahami cara menggunakan alat dengan betul.

Oleh itu, matlamatnya adalah untuk meningkatkan "kawasan permukaan" di mana ejen boleh menjadi berkesan. Ini bermakna mencipta alat yang bukan sahaja teguh tetapi juga "ergonomik" untuk digunakan oleh ejen. Menariknya, pengalaman Anthropic menunjukkan bahawa alat yang direka dengan mengambil kira sifat tidak deterministik ejen sering kali ternyata sangat intuitif dan mudah difahami oleh manusia juga. Perspektif ini mengenai pembangunan alat adalah kunci untuk membuka potensi penuh model canggih seperti Claude Opus atau Claude Sonnet dalam aplikasi dunia nyata.

Membangunkan Alat AI Berkesan: Daripada Prototaip kepada Pengoptimuman

Perjalanan mencipta alat ejen AI yang berkesan adalah proses berulang untuk membina, menguji, dan memperhalusi. Anthropic menekankan pendekatan praktikal, bermula dengan prototaip pantas dan kemudian beralih kepada penilaian komprehensif.

Membina Prototaip Pantas

Menjangka bagaimana ejen akan berinteraksi dengan alat boleh menjadi mencabar tanpa pengalaman praktikal. Langkah pertama melibatkan pembangunan prototaip dengan pantas. Jika pembangun memanfaatkan ejen seperti Claude Code untuk penciptaan alat, menyediakan dokumentasi yang tersusun rapi untuk sebarang perpustakaan perisian, API, atau SDK (termasuk MCP SDK) adalah penting. Fail 'llms.txt' rata, yang sering ditemui di laman dokumentasi rasmi, sangat mesra LLM.

Prototaip ini boleh dibalut dalam pelayan MCP tempatan atau Sambungan Desktop (DXT) untuk memudahkan ujian tempatan dalam Claude Code atau aplikasi Desktop Claude. Untuk ujian berprogram, alat juga boleh dihantar terus ke panggilan API Anthropic. Fasa awal ini menggalakkan pembangun untuk menguji alat secara peribadi, mengumpul maklum balas pengguna, dan membina intuisi mengenai kes penggunaan yang dijangkakan dan prompt yang bertujuan untuk dikendalikan oleh alat.

Menjalankan Penilaian Komprehensif

Setelah prototaip berfungsi, langkah kritikal seterusnya adalah untuk mengukur seberapa berkesan ejen menggunakan alat ini melalui penilaian sistematik. Ini melibatkan penjanaan pelbagai tugas penilaian yang berlandaskan senario dunia nyata.

Menjana Tugas Penilaian

Tugas penilaian harus diilhamkan oleh pertanyaan pengguna sebenar dan menggunakan sumber data yang realistik. Adalah penting untuk mengelakkan persekitaran 'kotak pasir' yang terlalu ringkas yang tidak cukup menguji kerumitan alat. Tugas penilaian yang mantap sering memerlukan ejen untuk membuat beberapa panggilan alat untuk mencapai penyelesaian.

Jenis Tugas	Contoh Mantap	Contoh Lemah
Penjadualan Mesyuarat	'Jadualkan mesyuarat dengan Jane minggu depan untuk membincangkan projek Acme Corp terbaru kami. Lampirkan nota dari mesyuarat perancangan projek terakhir kami dan tempah bilik persidangan.'	'Jadualkan mesyuarat dengan jane@acme.corp minggu depan.'
Khidmat Pelanggan	'ID Pelanggan 9182 melaporkan bahawa mereka dicaj tiga kali untuk satu percubaan pembelian. Cari semua entri log yang berkaitan dan tentukan sama ada pelanggan lain terjejas oleh isu yang sama.'	'Cari log pembayaran untuk 'purchase_complete' dan 'customer_id=9182'.'
Analisis Pengekalan	'Pelanggan Sarah Chen baru sahaja menghantar permintaan pembatalan. Sediakan tawaran pengekalan. Tentukan: (1) mengapa mereka ingin pergi, (2) tawaran pengekalan apa yang paling menarik, dan (3) sebarang faktor risiko yang perlu kita sedari sebelum membuat tawaran.'	'Cari permintaan pembatalan oleh ID Pelanggan 45892.'

Setiap prompt harus dipadankan dengan respons atau hasil yang boleh disahkan. Pengesah boleh terdiri daripada perbandingan rentetan mudah hingga penilaian yang lebih maju yang melibatkan ejen untuk menilai respons. Adalah penting untuk mengelakkan pengesah yang terlalu ketat yang mungkin menolak respons yang sah disebabkan perbezaan format yang kecil. Secara pilihan, pembangun boleh menentukan panggilan alat yang dijangkakan, walaupun ini harus dilakukan dengan berhati-hati untuk mengelakkan spesifikasi berlebihan atau overfitting kepada strategi tertentu, kerana ejen mungkin menemui beberapa laluan yang sah untuk penyelesaian.

Menjalankan Penilaian Secara Berprogram

Anthropic mengesyorkan menjalankan penilaian secara berprogram menggunakan panggilan API LLM secara langsung dalam gelung agen yang mudah (cth., gelung while yang berselang-seli antara API LLM dan panggilan alat). Setiap ejen penilaian diberikan satu prompt tugas dan alat-alatnya. Dalam prompt sistem untuk ejen ini, adalah berfaedah untuk mengarahkan mereka untuk mengeluarkan blok respons berstruktur (untuk pengesahan), penaakulan, dan blok maklum balas sebelum panggilan alat dan blok respons. Ini menggalakkan tingkah laku chain-of-thought (CoT), meningkatkan kecerdasan berkesan LLM. Ciri "pemikiran berselang-seli" Claude menawarkan fungsi serupa secara langsung, memberikan pandangan mengapa ejen membuat pilihan alat tertentu.

Selain ketepatan peringkat atas, mengumpul metrik seperti jumlah masa jalan, bilangan panggilan alat, penggunaan token, dan ralat alat adalah penting. Penjejakan panggilan alat boleh mendedahkan aliran kerja ejen yang biasa, mencadangkan peluang untuk penyatuan atau penambahbaikan alat.

Mengoptimumkan Alat dengan AI: Pendekatan Kolaboratif Claude

Menganalisis hasil penilaian adalah fasa kritikal. Ejen sendiri boleh menjadi rakan kongsi yang tidak ternilai dalam proses ini, mengesan isu dan memberikan maklum balas. Walau bagaimanapun, maklum balas mereka tidak selalu eksplisit; apa yang mereka abaikan boleh sama pentingnya dengan apa yang mereka sertakan. Pembangun harus meneliti penaakulan ejen (CoT), menyemak transkrip mentah (termasuk panggilan alat dan respons), dan menganalisis metrik panggilan alat. Contohnya, panggilan alat yang berlebihan mungkin menandakan keperluan untuk melaraskan pengehadan halaman atau token, manakala ralat yang kerap disebabkan oleh parameter yang tidak sah boleh menunjukkan huraian alat yang tidak jelas.

Contoh ketara dari Anthropic melibatkan alat carian web Claude, di mana ia secara tidak perlu menambah '2025' pada pertanyaan, menyebabkan hasil yang berat sebelah. Memperbaiki huraian alat adalah kunci untuk mengarahkan Claude ke arah yang betul.

Aspek paling inovatif dalam metodologi Anthropic adalah keupayaan untuk membiarkan ejen menganalisis hasil mereka sendiri dan memperbaiki alat mereka. Dengan menyambung transkrip penilaian dan memasukkannya ke dalam Claude Code, pembangun boleh memanfaatkan kepakaran Claude dalam menganalisis interaksi kompleks dan menyusun semula alat. Claude cemerlang dalam memastikan konsistensi antara pelaksanaan dan huraian alat, walaupun merentasi pelbagai perubahan. Gelung maklum balas yang berkuasa ini bermakna banyak nasihat Anthropic sendiri mengenai pembangunan alat telah dijana dan diperhalusi melalui proses pengoptimuman yang dibantu ejen ini, menggemakan trend yang semakin meningkat dalam aliran kerja agen dalam pembangunan perisian.

Prinsip Utama untuk Pembangunan Alat Ejen Berkualiti Tinggi

Melalui percubaan meluas dan pengoptimuman yang didorong oleh ejen, Anthropic telah mengenal pasti beberapa prinsip teras untuk menghasilkan alat berkualiti tinggi untuk ejen AI:

Pemilihan Alat Strategik: Pilih dengan bijak alat mana yang hendak dilaksanakan, dan yang penting, alat mana yang tidak. Membebani ejen dengan alat yang tidak perlu boleh menyebabkan kekeliruan dan ketidakcekapan.
Penetapan Ruang Nama yang Jelas: Tentukan sempadan dan fungsi yang jelas untuk setiap alat melalui penetapan ruang nama yang berkesan. Ini membantu ejen memahami skop dan tujuan sebenar setiap keupayaan.
Pengembalian Konteks Bermakna: Alat harus mengembalikan konteks yang ringkas dan relevan kepada ejen, membolehkan pembuatan keputusan yang bermaklumat tanpa maklumat yang bertele-tele atau tidak berkaitan.
Pengoptimuman Kecekapan Token: Optimumkan respons alat agar cekap token. Dalam interaksi LLM, setiap token penting untuk kedua-dua kos dan kelajuan pemprosesan.
Kejuruteraan Prompt yang Tepat: Lakukan kejuruteraan prompt dengan teliti untuk huraian dan spesifikasi alat. Arahan yang jelas dan tidak kabur adalah penting bagi ejen untuk mentafsir dan menggunakan alat dengan betul.

Dengan mematuhi prinsip-prinsip ini dan menerima kitaran pembangunan berulang yang dibantu ejen, pembangun boleh membina alat yang teguh, cekap, dan sangat berkesan yang meningkatkan prestasi dan keupayaan ejen AI secara signifikan, menolak sempadan apa yang boleh dicapai oleh sistem pintar ini.