What is the Model Context Protocol (MCP) and how does it relate to AI agents?

The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.

Why is designing tools specifically for non-deterministic AI agents different from traditional software development?

Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.

What are the critical steps in evaluating the performance of AI agent tools?

Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.

How can AI agents like Claude optimize their own tools?

Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.

What are the key principles for writing high-quality tools for AI agents?

Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Công cụ cho Agent: Nâng cao hiệu suất AI với tối ưu hóa Claude

Vai trò quan trọng của công cụ trong hiệu suất của Agent AI

Trong bối cảnh AI phát triển nhanh chóng, hiệu quả của một agent thông minh phụ thuộc đáng kể vào chất lượng và tiện ích của các công cụ mà nó sử dụng. Khi các mô hình trí tuệ nhân tạo ngày càng có khả năng hơn, cho phép chúng thực hiện các tác vụ phức tạp, nhiều bước, cách chúng tương tác với các hệ thống bên ngoài – thông qua "công cụ" – trở nên tối quan trọng. Anthropic, một nhà lãnh đạo trong nghiên cứu và phát triển AI, đã chia sẻ những hiểu biết quan trọng về cách xây dựng, đánh giá và thậm chí tối ưu hóa các công cụ này, giúp tăng đáng kể hiệu suất của agent.

Cốt lõi của cách tiếp cận này là Giao thức ngữ cảnh mô hình (MCP), một hệ thống được thiết kế để trao quyền cho các agent mô hình ngôn ngữ lớn (LLM) truy cập vào một loạt các chức năng. Tuy nhiên, chỉ cung cấp công cụ thôi là chưa đủ; chúng phải đạt hiệu quả tối đa. Bài viết này đi sâu vào các kỹ thuật đã được chứng minh của Anthropic để cải thiện các hệ thống AI dựa trên agent, làm nổi bật cách các mô hình AI như Claude có thể cùng nhau tinh chỉnh bộ công cụ của chính chúng. Hành trình từ ý tưởng ban đầu đến công cụ được tối ưu hóa bao gồm việc tạo nguyên mẫu, đánh giá nghiêm ngặt và một vòng lặp phản hồi hợp tác với chính agent.

Hiểu về Công cụ Agent AI: Một mô hình mới cho phần mềm

Theo truyền thống, phát triển phần mềm hoạt động dựa trên các nguyên tắc xác định: với cùng một đầu vào, một hàm sẽ luôn tạo ra cùng một đầu ra. Hãy xem xét một lời gọi đơn giản getWeather("NYC"); nó luôn lấy thông tin thời tiết Thành phố New York một cách giống hệt nhau. Tuy nhiên, các agent AI, chẳng hạn như Claude của Anthropic, hoạt động như các hệ thống phi xác định. Điều này có nghĩa là các phản hồi của chúng có thể thay đổi ngay cả trong các điều kiện ban đầu giống hệt nhau.

Sự khác biệt cơ bản này đòi hỏi một sự thay đổi mô hình khi thiết kế phần mềm cho các agent. Các công cụ cho agent AI không chỉ là các hàm hoặc API dành cho các nhà phát triển khác; chúng là các giao diện được thiết kế cho một thực thể thông minh, nhưng đôi khi khó đoán. Khi người dùng hỏi, 'Hôm nay tôi có nên mang ô không?', một agent có thể gọi công cụ thời tiết, sử dụng kiến thức chung, hoặc thậm chí yêu cầu làm rõ vị trí. Đôi khi, các agent có thể tạo ảo giác hoặc không hiểu cách sử dụng công cụ một cách chính xác.

Do đó, mục tiêu là tăng 'bề mặt' mà trên đó các agent có thể hoạt động hiệu quả. Điều này có nghĩa là tạo ra các công cụ không chỉ mạnh mẽ mà còn 'tiện dụng' để các agent sử dụng. Điều thú vị là, kinh nghiệm của Anthropic cho thấy các công cụ được thiết kế có tính đến bản chất phi xác định của agent thường hóa ra trực quan đáng ngạc nhiên và dễ hiểu đối với con người. Quan điểm này về phát triển công cụ là chìa khóa để khai thác toàn bộ tiềm năng của các mô hình tinh vi như Claude Opus hoặc Claude Sonnet trong các ứng dụng thực tế.

Phát triển Công cụ AI hiệu quả: Từ Nguyên mẫu đến Tối ưu hóa

Hành trình tạo ra các công cụ agent AI hiệu quả là một quá trình lặp đi lặp lại của việc xây dựng, thử nghiệm và tinh chỉnh. Anthropic nhấn mạnh một cách tiếp cận thực tế, bắt đầu với việc tạo nguyên mẫu nhanh chóng và sau đó chuyển sang đánh giá toàn diện.

Xây dựng Nguyên mẫu nhanh

Dự đoán cách các agent sẽ tương tác với các công cụ có thể là một thách thức nếu không có kinh nghiệm thực tế. Bước đầu tiên liên quan đến việc nhanh chóng xây dựng một nguyên mẫu. Nếu các nhà phát triển đang tận dụng một agent như Claude Code để tạo công cụ, việc cung cấp tài liệu có cấu trúc tốt cho bất kỳ thư viện phần mềm, API hoặc SDK cơ bản nào (bao gồm cả MCP SDK) là rất quan trọng. Các tệp 'llms.txt' phẳng, thường được tìm thấy trên các trang tài liệu chính thức, đặc biệt thân thiện với LLM.

Các nguyên mẫu này có thể được đóng gói trong một máy chủ MCP cục bộ hoặc một Tiện ích mở rộng Máy tính để bàn (DXT) để tạo điều kiện thử nghiệm cục bộ trong Claude Code hoặc ứng dụng Claude Desktop. Để kiểm thử theo chương trình, các công cụ cũng có thể được truyền trực tiếp vào các lệnh gọi API của Anthropic. Giai đoạn ban đầu này khuyến khích các nhà phát triển tự mình thử nghiệm các công cụ, thu thập phản hồi của người dùng và xây dựng trực giác xung quanh các trường hợp sử dụng dự kiến và các prompt mà các công cụ được thiết kế để xử lý.

Chạy một Đánh giá Toàn diện

Sau khi nguyên mẫu hoạt động được, bước quan trọng tiếp theo là đo lường mức độ hiệu quả của agent khi sử dụng các công cụ này thông qua một đánh giá có hệ thống. Điều này bao gồm việc tạo ra nhiều tác vụ đánh giá dựa trên các kịch bản trong thế giới thực.

Tạo Tác vụ Đánh giá

Các tác vụ đánh giá nên được lấy cảm hứng từ các truy vấn thực tế của người dùng và sử dụng các nguồn dữ liệu thực tế. Điều quan trọng là tránh các môi trường "sandbox" đơn giản không đủ để kiểm tra căng thẳng độ phức tạp của các công cụ. Các tác vụ đánh giá mạnh mẽ thường yêu cầu agent thực hiện nhiều lời gọi công cụ để đạt được giải pháp.

Loại tác vụ	Ví dụ mạnh mẽ	Ví dụ yếu
Lên lịch cuộc họp	'Lên lịch một cuộc họp với Jane vào tuần tới để thảo luận về dự án Acme Corp mới nhất của chúng ta. Đính kèm ghi chú từ cuộc họp lập kế hoạch dự án cuối cùng của chúng ta và đặt một phòng hội thảo.'	'Lên lịch một cuộc họp với jane@acme.corp vào tuần tới.'
Dịch vụ khách hàng	'Khách hàng ID 9182 báo cáo rằng họ đã bị tính phí ba lần cho một lần cố gắng mua hàng. Tìm tất cả các mục nhật ký liên quan và xác định xem có bất kỳ khách hàng nào khác bị ảnh hưởng bởi cùng một vấn đề hay không.'	'Tìm kiếm nhật ký thanh toán cho 'purchase_complete' và 'customer_id=9182'.'
Phân tích giữ chân	'Khách hàng Sarah Chen vừa gửi yêu cầu hủy bỏ. Chuẩn bị một đề nghị giữ chân. Xác định: (1) tại sao họ lại rời đi, (2) đề nghị giữ chân nào sẽ hấp dẫn nhất, và (3) bất kỳ yếu tố rủi ro nào chúng ta cần lưu ý trước khi đưa ra đề nghị.'	'Tìm yêu cầu hủy bỏ của Khách hàng ID 45892.'

Mỗi prompt nên được ghép nối với một phản hồi hoặc kết quả có thể xác minh được. Bộ xác minh có thể từ so sánh chuỗi đơn giản đến các đánh giá nâng cao hơn, yêu cầu một agent đánh giá phản hồi. Điều quan trọng là tránh các bộ xác minh quá nghiêm ngặt có thể từ chối các phản hồi hợp lệ do sự khác biệt nhỏ về định dạng. Tùy chọn, các nhà phát triển có thể chỉ định các lời gọi công cụ dự kiến, mặc dù điều này nên được thực hiện cẩn thận để tránh chỉ định quá mức hoặc quá khớp với các chiến lược cụ thể, vì các agent có thể tìm thấy nhiều đường dẫn hợp lệ để đi đến một giải pháp.

Chạy Đánh giá theo Chương trình

Anthropic khuyến nghị chạy các đánh giá theo chương trình bằng cách sử dụng các lời gọi API LLM trực tiếp trong các vòng lặp agentic đơn giản (ví dụ: vòng lặp while luân phiên giữa API LLM và các lời gọi công cụ). Mỗi agent đánh giá được cấp một prompt tác vụ duy nhất và các công cụ. Trong các prompt hệ thống cho các agent này, việc hướng dẫn chúng xuất ra các khối phản hồi có cấu trúc (để xác minh), lý do và khối phản hồi trước các khối lời gọi và phản hồi công cụ là rất hữu ích. Điều này khuyến khích các hành vi suy nghĩ theo chuỗi (CoT), tăng cường trí thông minh hiệu quả của LLM. Tính năng 'suy nghĩ xen kẽ' của Claude cung cấp chức năng tương tự ngay lập tức, cung cấp cái nhìn sâu sắc về lý do tại sao các agent đưa ra các lựa chọn công cụ cụ thể.

Ngoài độ chính xác cấp cao nhất, việc thu thập các số liệu như tổng thời gian chạy, số lượng lời gọi công cụ, lượng tiêu thụ token và lỗi công cụ là rất quan trọng. Theo dõi các lời gọi công cụ có thể tiết lộ các quy trình làm việc phổ biến của agent, gợi ý các cơ hội để hợp nhất hoặc tinh chỉnh công cụ.

Tối ưu hóa Công cụ bằng AI: Cách tiếp cận hợp tác của Claude

Phân tích kết quả đánh giá là một giai đoạn quan trọng. Bản thân các agent có thể là những đối tác vô giá trong quá trình này, phát hiện các vấn đề và cung cấp phản hồi. Tuy nhiên, phản hồi của chúng không phải lúc nào cũng rõ ràng; những gì chúng bỏ qua có thể nói lên nhiều điều như những gì chúng bao gồm. Các nhà phát triển nên xem xét kỹ lưỡng lý do của agent (CoT), xem xét các bản ghi thô (bao gồm lời gọi công cụ và phản hồi) và phân tích các số liệu lời gọi công cụ. Ví dụ, các lời gọi công cụ dư thừa có thể báo hiệu nhu cầu điều chỉnh phân trang hoặc giới hạn token, trong khi lỗi thường xuyên do các tham số không hợp lệ có thể chỉ ra mô tả công cụ không rõ ràng.

Một ví dụ đáng chú ý từ Anthropic liên quan đến công cụ tìm kiếm web của Claude, nơi nó đã thêm '2025' một cách không cần thiết vào các truy vấn, làm lệch kết quả. Cải thiện mô tả công cụ là chìa khóa để định hướng Claude đi đúng hướng.

Khía cạnh sáng tạo nhất trong phương pháp luận của Anthropic là khả năng cho phép các agent phân tích kết quả của chính chúng và cải thiện công cụ của chúng. Bằng cách nối các bản ghi đánh giá và đưa chúng vào Claude Code, các nhà phát triển có thể tận dụng chuyên môn của Claude trong việc phân tích các tương tác phức tạp và tái cấu trúc công cụ. Claude xuất sắc trong việc đảm bảo tính nhất quán giữa việc triển khai và mô tả công cụ, ngay cả khi có nhiều thay đổi. Vòng lặp phản hồi mạnh mẽ này có nghĩa là phần lớn lời khuyên của Anthropic về phát triển công cụ đã được tạo ra và tinh chỉnh thông qua chính quá trình tối ưu hóa có sự hỗ trợ của agent này, phản ánh xu hướng ngày càng tăng của quy trình làm việc dựa trên agent trong phát triển phần mềm.

Các Nguyên tắc chính để Phát triển Công cụ Agent chất lượng cao

Thông qua thử nghiệm rộng rãi và tối ưu hóa do agent điều khiển, Anthropic đã xác định một số nguyên tắc cốt lõi để tạo ra các công cụ chất lượng cao cho các agent AI:

Lựa chọn công cụ chiến lược: Chọn lựa khôn ngoan những công cụ nào nên triển khai, và quan trọng hơn, những công cụ nào không nên. Việc cung cấp quá nhiều công cụ không cần thiết cho một agent có thể dẫn đến sự bối rối và không hiệu quả.
Đặt tên không gian rõ ràng: Xác định ranh giới và chức năng rõ ràng cho từng công cụ thông qua việc đặt tên không gian hiệu quả. Điều này giúp các agent hiểu được phạm vi và mục đích chính xác của từng khả năng.
Trả về ngữ cảnh có ý nghĩa: Các công cụ nên trả về ngữ cảnh súc tích và liên quan cho agent, cho phép ra quyết định sáng suốt mà không cần thông tin dài dòng hoặc không cần thiết.
Tối ưu hóa hiệu quả Token: Tối ưu hóa phản hồi của công cụ để đạt hiệu quả token. Trong các tương tác LLM, mỗi token đều quan trọng đối với cả chi phí và tốc độ xử lý.
Kỹ thuật Prompt chính xác: Kỹ thuật prompt tỉ mỉ các mô tả và thông số kỹ thuật của công cụ. Các hướng dẫn rõ ràng, không mơ hồ là rất quan trọng để các agent diễn giải và sử dụng công cụ một cách chính xác.

Bằng cách tuân thủ các nguyên tắc này và áp dụng một chu trình phát triển lặp đi lặp lại, có sự hỗ trợ của agent, các nhà phát triển có thể xây dựng các công cụ mạnh mẽ, hiệu quả và có tính ứng dụng cao, giúp nâng cao đáng kể hiệu suất và khả năng của các agent AI, đẩy xa giới hạn những gì các hệ thống thông minh này có thể đạt được.