Vai trò quan trọng của công cụ trong hiệu suất của Agent AI
Trong bối cảnh AI phát triển nhanh chóng, hiệu quả của một agent thông minh phụ thuộc đáng kể vào chất lượng và tiện ích của các công cụ mà nó sử dụng. Khi các mô hình trí tuệ nhân tạo ngày càng có khả năng hơn, cho phép chúng thực hiện các tác vụ phức tạp, nhiều bước, cách chúng tương tác với các hệ thống bên ngoài – thông qua "công cụ" – trở nên tối quan trọng. Anthropic, một nhà lãnh đạo trong nghiên cứu và phát triển AI, đã chia sẻ những hiểu biết quan trọng về cách xây dựng, đánh giá và thậm chí tối ưu hóa các công cụ này, giúp tăng đáng kể hiệu suất của agent.
Cốt lõi của cách tiếp cận này là Giao thức ngữ cảnh mô hình (MCP), một hệ thống được thiết kế để trao quyền cho các agent mô hình ngôn ngữ lớn (LLM) truy cập vào một loạt các chức năng. Tuy nhiên, chỉ cung cấp công cụ thôi là chưa đủ; chúng phải đạt hiệu quả tối đa. Bài viết này đi sâu vào các kỹ thuật đã được chứng minh của Anthropic để cải thiện các hệ thống AI dựa trên agent, làm nổi bật cách các mô hình AI như Claude có thể cùng nhau tinh chỉnh bộ công cụ của chính chúng. Hành trình từ ý tưởng ban đầu đến công cụ được tối ưu hóa bao gồm việc tạo nguyên mẫu, đánh giá nghiêm ngặt và một vòng lặp phản hồi hợp tác với chính agent.
Hiểu về Công cụ Agent AI: Một mô hình mới cho phần mềm
Theo truyền thống, phát triển phần mềm hoạt động dựa trên các nguyên tắc xác định: với cùng một đầu vào, một hàm sẽ luôn tạo ra cùng một đầu ra. Hãy xem xét một lời gọi đơn giản getWeather("NYC"); nó luôn lấy thông tin thời tiết Thành phố New York một cách giống hệt nhau. Tuy nhiên, các agent AI, chẳng hạn như Claude của Anthropic, hoạt động như các hệ thống phi xác định. Điều này có nghĩa là các phản hồi của chúng có thể thay đổi ngay cả trong các điều kiện ban đầu giống hệt nhau.
Sự khác biệt cơ bản này đòi hỏi một sự thay đổi mô hình khi thiết kế phần mềm cho các agent. Các công cụ cho agent AI không chỉ là các hàm hoặc API dành cho các nhà phát triển khác; chúng là các giao diện được thiết kế cho một thực thể thông minh, nhưng đôi khi khó đoán. Khi người dùng hỏi, 'Hôm nay tôi có nên mang ô không?', một agent có thể gọi công cụ thời tiết, sử dụng kiến thức chung, hoặc thậm chí yêu cầu làm rõ vị trí. Đôi khi, các agent có thể tạo ảo giác hoặc không hiểu cách sử dụng công cụ một cách chính xác.
Do đó, mục tiêu là tăng 'bề mặt' mà trên đó các agent có thể hoạt động hiệu quả. Điều này có nghĩa là tạo ra các công cụ không chỉ mạnh mẽ mà còn 'tiện dụng' để các agent sử dụng. Điều thú vị là, kinh nghiệm của Anthropic cho thấy các công cụ được thiết kế có tính đến bản chất phi xác định của agent thường hóa ra trực quan đáng ngạc nhiên và dễ hiểu đối với con người. Quan điểm này về phát triển công cụ là chìa khóa để khai thác toàn bộ tiềm năng của các mô hình tinh vi như Claude Opus hoặc Claude Sonnet trong các ứng dụng thực tế.
Phát triển Công cụ AI hiệu quả: Từ Nguyên mẫu đến Tối ưu hóa
Hành trình tạo ra các công cụ agent AI hiệu quả là một quá trình lặp đi lặp lại của việc xây dựng, thử nghiệm và tinh chỉnh. Anthropic nhấn mạnh một cách tiếp cận thực tế, bắt đầu với việc tạo nguyên mẫu nhanh chóng và sau đó chuyển sang đánh giá toàn diện.
Xây dựng Nguyên mẫu nhanh
Dự đoán cách các agent sẽ tương tác với các công cụ có thể là một thách thức nếu không có kinh nghiệm thực tế. Bước đầu tiên liên quan đến việc nhanh chóng xây dựng một nguyên mẫu. Nếu các nhà phát triển đang tận dụng một agent như Claude Code để tạo công cụ, việc cung cấp tài liệu có cấu trúc tốt cho bất kỳ thư viện phần mềm, API hoặc SDK cơ bản nào (bao gồm cả MCP SDK) là rất quan trọng. Các tệp 'llms.txt' phẳng, thường được tìm thấy trên các trang tài liệu chính thức, đặc biệt thân thiện với LLM.
Các nguyên mẫu này có thể được đóng gói trong một máy chủ MCP cục bộ hoặc một Tiện ích mở rộng Máy tính để bàn (DXT) để tạo điều kiện thử nghiệm cục bộ trong Claude Code hoặc ứng dụng Claude Desktop. Để kiểm thử theo chương trình, các công cụ cũng có thể được truyền trực tiếp vào các lệnh gọi API của Anthropic. Giai đoạn ban đầu này khuyến khích các nhà phát triển tự mình thử nghiệm các công cụ, thu thập phản hồi của người dùng và xây dựng trực giác xung quanh các trường hợp sử dụng dự kiến và các prompt mà các công cụ được thiết kế để xử lý.
Chạy một Đánh giá Toàn diện
Sau khi nguyên mẫu hoạt động được, bước quan trọng tiếp theo là đo lường mức độ hiệu quả của agent khi sử dụng các công cụ này thông qua một đánh giá có hệ thống. Điều này bao gồm việc tạo ra nhiều tác vụ đánh giá dựa trên các kịch bản trong thế giới thực.
Tạo Tác vụ Đánh giá
Các tác vụ đánh giá nên được lấy cảm hứng từ các truy vấn thực tế của người dùng và sử dụng các nguồn dữ liệu thực tế. Điều quan trọng là tránh các môi trường "sandbox" đơn giản không đủ để kiểm tra căng thẳng độ phức tạp của các công cụ. Các tác vụ đánh giá mạnh mẽ thường yêu cầu agent thực hiện nhiều lời gọi công cụ để đạt được giải pháp.
| Loại tác vụ | Ví dụ mạnh mẽ | Ví dụ yếu |
|---|---|---|
| Lên lịch cuộc họp | 'Lên lịch một cuộc họp với Jane vào tuần tới để thảo luận về dự án Acme Corp mới nhất của chúng ta. Đính kèm ghi chú từ cuộc họp lập kế hoạch dự án cuối cùng của chúng ta và đặt một phòng hội thảo.' | 'Lên lịch một cuộc họp với jane@acme.corp vào tuần tới.' |
| Dịch vụ khách hàng | 'Khách hàng ID 9182 báo cáo rằng họ đã bị tính phí ba lần cho một lần cố gắng mua hàng. Tìm tất cả các mục nhật ký liên quan và xác định xem có bất kỳ khách hàng nào khác bị ảnh hưởng bởi cùng một vấn đề hay không.' | 'Tìm kiếm nhật ký thanh toán cho 'purchase_complete' và 'customer_id=9182'.' |
| Phân tích giữ chân | 'Khách hàng Sarah Chen vừa gửi yêu cầu hủy bỏ. Chuẩn bị một đề nghị giữ chân. Xác định: (1) tại sao họ lại rời đi, (2) đề nghị giữ chân nào sẽ hấp dẫn nhất, và (3) bất kỳ yếu tố rủi ro nào chúng ta cần lưu ý trước khi đưa ra đề nghị.' | 'Tìm yêu cầu hủy bỏ của Khách hàng ID 45892.' |
Mỗi prompt nên được ghép nối với một phản hồi hoặc kết quả có thể xác minh được. Bộ xác minh có thể từ so sánh chuỗi đơn giản đến các đánh giá nâng cao hơn, yêu cầu một agent đánh giá phản hồi. Điều quan trọng là tránh các bộ xác minh quá nghiêm ngặt có thể từ chối các phản hồi hợp lệ do sự khác biệt nhỏ về định dạng. Tùy chọn, các nhà phát triển có thể chỉ định các lời gọi công cụ dự kiến, mặc dù điều này nên được thực hiện cẩn thận để tránh chỉ định quá mức hoặc quá khớp với các chiến lược cụ thể, vì các agent có thể tìm thấy nhiều đường dẫn hợp lệ để đi đến một giải pháp.
Chạy Đánh giá theo Chương trình
Anthropic khuyến nghị chạy các đánh giá theo chương trình bằng cách sử dụng các lời gọi API LLM trực tiếp trong các vòng lặp agentic đơn giản (ví dụ: vòng lặp while luân phiên giữa API LLM và các lời gọi công cụ). Mỗi agent đánh giá được cấp một prompt tác vụ duy nhất và các công cụ. Trong các prompt hệ thống cho các agent này, việc hướng dẫn chúng xuất ra các khối phản hồi có cấu trúc (để xác minh), lý do và khối phản hồi trước các khối lời gọi và phản hồi công cụ là rất hữu ích. Điều này khuyến khích các hành vi suy nghĩ theo chuỗi (CoT), tăng cường trí thông minh hiệu quả của LLM. Tính năng 'suy nghĩ xen kẽ' của Claude cung cấp chức năng tương tự ngay lập tức, cung cấp cái nhìn sâu sắc về lý do tại sao các agent đưa ra các lựa chọn công cụ cụ thể.
Ngoài độ chính xác cấp cao nhất, việc thu thập các số liệu như tổng thời gian chạy, số lượng lời gọi công cụ, lượng tiêu thụ token và lỗi công cụ là rất quan trọng. Theo dõi các lời gọi công cụ có thể tiết lộ các quy trình làm việc phổ biến của agent, gợi ý các cơ hội để hợp nhất hoặc tinh chỉnh công cụ.
Tối ưu hóa Công cụ bằng AI: Cách tiếp cận hợp tác của Claude
Phân tích kết quả đánh giá là một giai đoạn quan trọng. Bản thân các agent có thể là những đối tác vô giá trong quá trình này, phát hiện các vấn đề và cung cấp phản hồi. Tuy nhiên, phản hồi của chúng không phải lúc nào cũng rõ ràng; những gì chúng bỏ qua có thể nói lên nhiều điều như những gì chúng bao gồm. Các nhà phát triển nên xem xét kỹ lưỡng lý do của agent (CoT), xem xét các bản ghi thô (bao gồm lời gọi công cụ và phản hồi) và phân tích các số liệu lời gọi công cụ. Ví dụ, các lời gọi công cụ dư thừa có thể báo hiệu nhu cầu điều chỉnh phân trang hoặc giới hạn token, trong khi lỗi thường xuyên do các tham số không hợp lệ có thể chỉ ra mô tả công cụ không rõ ràng.
Một ví dụ đáng chú ý từ Anthropic liên quan đến công cụ tìm kiếm web của Claude, nơi nó đã thêm '2025' một cách không cần thiết vào các truy vấn, làm lệch kết quả. Cải thiện mô tả công cụ là chìa khóa để định hướng Claude đi đúng hướng.
Khía cạnh sáng tạo nhất trong phương pháp luận của Anthropic là khả năng cho phép các agent phân tích kết quả của chính chúng và cải thiện công cụ của chúng. Bằng cách nối các bản ghi đánh giá và đưa chúng vào Claude Code, các nhà phát triển có thể tận dụng chuyên môn của Claude trong việc phân tích các tương tác phức tạp và tái cấu trúc công cụ. Claude xuất sắc trong việc đảm bảo tính nhất quán giữa việc triển khai và mô tả công cụ, ngay cả khi có nhiều thay đổi. Vòng lặp phản hồi mạnh mẽ này có nghĩa là phần lớn lời khuyên của Anthropic về phát triển công cụ đã được tạo ra và tinh chỉnh thông qua chính quá trình tối ưu hóa có sự hỗ trợ của agent này, phản ánh xu hướng ngày càng tăng của quy trình làm việc dựa trên agent trong phát triển phần mềm.
Các Nguyên tắc chính để Phát triển Công cụ Agent chất lượng cao
Thông qua thử nghiệm rộng rãi và tối ưu hóa do agent điều khiển, Anthropic đã xác định một số nguyên tắc cốt lõi để tạo ra các công cụ chất lượng cao cho các agent AI:
- Lựa chọn công cụ chiến lược: Chọn lựa khôn ngoan những công cụ nào nên triển khai, và quan trọng hơn, những công cụ nào không nên. Việc cung cấp quá nhiều công cụ không cần thiết cho một agent có thể dẫn đến sự bối rối và không hiệu quả.
- Đặt tên không gian rõ ràng: Xác định ranh giới và chức năng rõ ràng cho từng công cụ thông qua việc đặt tên không gian hiệu quả. Điều này giúp các agent hiểu được phạm vi và mục đích chính xác của từng khả năng.
- Trả về ngữ cảnh có ý nghĩa: Các công cụ nên trả về ngữ cảnh súc tích và liên quan cho agent, cho phép ra quyết định sáng suốt mà không cần thông tin dài dòng hoặc không cần thiết.
- Tối ưu hóa hiệu quả Token: Tối ưu hóa phản hồi của công cụ để đạt hiệu quả token. Trong các tương tác LLM, mỗi token đều quan trọng đối với cả chi phí và tốc độ xử lý.
- Kỹ thuật Prompt chính xác: Kỹ thuật prompt tỉ mỉ các mô tả và thông số kỹ thuật của công cụ. Các hướng dẫn rõ ràng, không mơ hồ là rất quan trọng để các agent diễn giải và sử dụng công cụ một cách chính xác.
Bằng cách tuân thủ các nguyên tắc này và áp dụng một chu trình phát triển lặp đi lặp lại, có sự hỗ trợ của agent, các nhà phát triển có thể xây dựng các công cụ mạnh mẽ, hiệu quả và có tính ứng dụng cao, giúp nâng cao đáng kể hiệu suất và khả năng của các agent AI, đẩy xa giới hạn những gì các hệ thống thông minh này có thể đạt được.
Câu hỏi thường gặp
What is the Model Context Protocol (MCP) and how does it relate to AI agents?
Why is designing tools specifically for non-deterministic AI agents different from traditional software development?
What are the critical steps in evaluating the performance of AI agent tools?
How can AI agents like Claude optimize their own tools?
What are the key principles for writing high-quality tools for AI agents?
Cập nhật tin tức
Nhận tin tức AI mới nhất qua email.
