Code Velocity
Perkakas Pengembang

Agent Tools: Meningkatkan Performa AI dengan Optimasi Claude

·7 mnt baca·Anthropic·Sumber asli
Bagikan
Ilustrasi evaluasi dan optimasi alat agen AI menggunakan Claude Code untuk performa yang ditingkatkan.

Peran Krusial Alat dalam Performa Agen AI

Dalam lanskap AI yang berkembang pesat, efikasi agen cerdas sangat bergantung pada kualitas dan kegunaan alat yang digunakannya. Seiring dengan model kecerdasan buatan yang menjadi semakin mampu, memungkinkan mereka untuk melakukan tugas-tugas kompleks dan multi-langkah, cara mereka berinteraksi dengan sistem eksternal – melalui "alat" – menjadi sangat penting. Anthropic, pemimpin dalam penelitian dan pengembangan AI, telah berbagi wawasan krusial tentang cara membangun, mengevaluasi, dan bahkan mengoptimalkan alat-alat ini, secara dramatis meningkatkan performa agen.

Inti dari pendekatan ini adalah Model Context Protocol (MCP), sebuah sistem yang dirancang untuk memberdayakan agen model bahasa besar (LLM) dengan akses ke beragam fungsionalitas. Namun, hanya menyediakan alat tidaklah cukup; alat tersebut harus seefektif mungkin. Artikel ini membahas teknik-teknik terbukti Anthropic untuk meningkatkan sistem AI agentic, menyoroti bagaimana model AI seperti Claude dapat secara kolaboratif menyempurnakan perangkat alat mereka sendiri. Perjalanan dari konsep awal hingga alat yang dioptimalkan melibatkan pembuatan prototipe, evaluasi ketat, dan lingkaran umpan balik kolaboratif dengan agen itu sendiri.

Memahami Alat Agen AI: Paradigma Baru untuk Perangkat Lunak

Secara tradisional, pengembangan perangkat lunak beroperasi berdasarkan prinsip deterministik: dengan input yang sama, sebuah fungsi akan selalu menghasilkan output yang sama. Pertimbangkan panggilan sederhana getWeather("NYC"); itu secara konsisten mengambil cuaca Kota New York dengan cara yang identik. Namun, agen AI, seperti Claude dari Anthropic, beroperasi sebagai sistem non-deterministik. Ini berarti respons mereka dapat bervariasi bahkan dalam kondisi awal yang identik.

Perbedaan mendasar ini memerlukan pergeseran paradigma saat merancang perangkat lunak untuk agen. Alat untuk agen AI bukan hanya fungsi atau API untuk pengembang lain; mereka adalah antarmuka yang dirancang untuk entitas yang cerdas, namun terkadang tidak dapat diprediksi. Ketika pengguna bertanya, "Haruskah saya membawa payung hari ini?", agen mungkin memanggil alat cuaca, menggunakan pengetahuan umum, atau bahkan meminta klarifikasi tentang lokasi. Terkadang, agen mungkin berhalusinasi atau gagal memahami cara menggunakan alat dengan benar.

Oleh karena itu, tujuannya adalah untuk meningkatkan "area permukaan" di mana agen dapat efektif. Ini berarti menciptakan alat yang tidak hanya tangguh tetapi juga "ergonomis" untuk digunakan agen. Menariknya, pengalaman Anthropic menunjukkan bahwa alat yang dirancang dengan mempertimbangkan sifat non-deterministik agen seringkali terbukti sangat intuitif dan mudah dipahami oleh manusia juga. Perspektif tentang pengembangan alat ini adalah kunci untuk membuka potensi penuh model canggih seperti Claude Opus atau Claude Sonnet dalam aplikasi dunia nyata.

Mengembangkan Alat AI yang Efektif: Dari Prototipe hingga Optimasi

Perjalanan menciptakan alat agen AI yang efektif adalah proses iteratif pembangunan, pengujian, dan penyempurnaan. Anthropic menekankan pendekatan langsung, dimulai dengan pembuatan prototipe cepat dan kemudian beralih ke evaluasi komprehensif.

Membangun Prototipe Cepat

Mengantisipasi bagaimana agen akan berinteraksi dengan alat dapat menjadi tantangan tanpa pengalaman praktis. Langkah pertama melibatkan penyiapan prototipe dengan cepat. Jika pengembang memanfaatkan agen seperti Claude Code untuk pembuatan alat, menyediakan dokumentasi yang terstruktur dengan baik untuk setiap pustaka perangkat lunak, API, atau SDK (termasuk MCP SDK) yang mendasarinya adalah krusial. File 'llms.txt' datar, yang sering ditemukan di situs dokumentasi resmi, sangat ramah LLM.

Prototipe ini dapat dibungkus dalam server MCP lokal atau Desktop Extension (DXT) untuk memfasilitasi pengujian lokal dalam Claude Code atau aplikasi Claude Desktop. Untuk pengujian terprogram, alat juga dapat langsung diteruskan ke panggilan API Anthropic. Fase awal ini mendorong pengembang untuk menguji alat secara pribadi, mengumpulkan umpan balik pengguna, dan membangun intuisi seputar kasus penggunaan yang diharapkan dan prompt yang dimaksudkan untuk ditangani oleh alat.

Menjalankan Evaluasi Komprehensif

Setelah prototipe berfungsi, langkah penting berikutnya adalah mengukur seberapa efektif agen menggunakan alat-alat ini melalui evaluasi sistematis. Ini melibatkan pembuatan banyak tugas evaluasi yang didasarkan pada skenario dunia nyata.

Membuat Tugas Evaluasi

Tugas evaluasi harus diinspirasi oleh pertanyaan pengguna aktual dan menggunakan sumber data yang realistis. Penting untuk menghindari lingkungan "sandbox" yang terlalu sederhana yang tidak cukup menguji kompleksitas alat. Tugas evaluasi yang kuat seringkali memerlukan agen untuk melakukan beberapa panggilan alat untuk mencapai solusi.

Jenis TugasContoh KuatContoh Lemah
Penjadwalan Rapat"Jadwalkan rapat dengan Jane minggu depan untuk membahas proyek Acme Corp terbaru kami. Lampirkan catatan dari rapat perencanaan proyek terakhir kami dan pesan ruang konferensi.""Jadwalkan rapat dengan jane@acme.corp minggu depan."
Layanan Pelanggan"ID Pelanggan 9182 melaporkan bahwa mereka dikenakan biaya tiga kali untuk satu percobaan pembelian. Temukan semua entri log yang relevan dan tentukan apakah ada pelanggan lain yang terpengaruh oleh masalah yang sama.""Cari log pembayaran untuk 'purchase_complete' dan 'customer_id=9182'."
Analisis Retensi"Pelanggan Sarah Chen baru saja mengajukan permintaan pembatalan. Siapkan penawaran retensi. Tentukan: (1) mengapa mereka pergi, (2) penawaran retensi apa yang paling menarik, dan (3) faktor risiko apa pun yang harus kita waspadai sebelum membuat penawaran.""Temukan permintaan pembatalan oleh ID Pelanggan 45892."

Setiap prompt harus dipasangkan dengan respons atau hasil yang dapat diverifikasi. Verifikasi dapat berkisar dari perbandingan string sederhana hingga evaluasi yang lebih canggih yang melibatkan agen untuk menilai respons. Sangat penting untuk menghindari verifikasi yang terlalu ketat yang mungkin menolak respons valid karena perbedaan format kecil. Secara opsional, pengembang dapat menentukan panggilan alat yang diharapkan, meskipun ini harus dilakukan dengan hati-hati untuk menghindari spesifikasi berlebihan atau overfitting pada strategi tertentu, karena agen mungkin menemukan beberapa jalur valid menuju solusi.

Menjalankan Evaluasi secara Terprogram

Anthropic merekomendasikan menjalankan evaluasi secara terprogram menggunakan panggilan API LLM langsung dalam loop agen sederhana (misalnya, loop while yang bergantian antara panggilan API LLM dan panggilan alat). Setiap agen evaluasi diberikan satu prompt tugas dan alat. Dalam prompt sistem untuk agen-agen ini, bermanfaat untuk menginstruksikan mereka agar mengeluarkan blok respons terstruktur (untuk verifikasi), penalaran, dan blok umpan balik sebelum blok panggilan dan respons alat. Ini mendorong perilaku chain-of-thought (CoT), meningkatkan kecerdasan efektif LLM. Fitur "pemikiran terjalin" Claude menawarkan fungsionalitas serupa secara langsung, memberikan wawasan mengapa agen membuat pilihan alat tertentu.

Selain akurasi tingkat atas, mengumpulkan metrik seperti waktu eksekusi total, jumlah panggilan alat, konsumsi token, dan kesalahan alat sangat penting. Melacak panggilan alat dapat mengungkapkan alur kerja agen yang umum, menunjukkan peluang untuk konsolidasi atau penyempurnaan alat.

Mengoptimalkan Alat dengan AI: Pendekatan Kolaboratif Claude

Menganalisis hasil evaluasi adalah fase krusial. Agen itu sendiri dapat menjadi mitra yang sangat berharga dalam proses ini, menemukan masalah dan memberikan umpan balik. Namun, umpan balik mereka tidak selalu eksplisit; apa yang mereka abaikan bisa sama pentingnya dengan apa yang mereka sertakan. Pengembang harus meneliti penalaran agen (CoT), meninjau transkrip mentah (termasuk panggilan dan respons alat), dan menganalisis metrik panggilan alat. Misalnya, panggilan alat yang berlebihan mungkin menandakan perlunya penyesuaian paginasi atau batas token, sementara kesalahan yang sering terjadi karena parameter yang tidak valid dapat menunjukkan deskripsi alat yang tidak jelas.

Contoh penting dari Anthropic melibatkan alat pencarian web Claude, di mana ia secara tidak perlu menambahkan '2025' ke kueri, membiaskan hasil. Meningkatkan deskripsi alat adalah kunci untuk mengarahkan Claude ke arah yang benar.

Aspek paling inovatif dari metodologi Anthropic adalah kemampuan untuk membiarkan agen menganalisis hasil mereka sendiri dan meningkatkan alat mereka. Dengan menggabungkan transkrip evaluasi dan memasukkannya ke dalam Claude Code, pengembang dapat memanfaatkan keahlian Claude dalam menganalisis interaksi kompleks dan melakukan refaktorisasi alat. Claude unggul dalam memastikan konsistensi antara implementasi dan deskripsi alat, bahkan di tengah banyak perubahan. Lingkaran umpan balik yang kuat ini berarti sebagian besar saran Anthropic sendiri tentang pengembangan alat telah dihasilkan dan disempurnakan melalui proses optimasi yang dibantu agen ini, menggemakan tren yang berkembang dari alur kerja agentic dalam pengembangan perangkat lunak.

Prinsip-Prinsip Utama untuk Pengembangan Alat Agen Berkualitas Tinggi

Melalui eksperimen ekstensif dan optimasi berbasis agen, Anthropic telah mengidentifikasi beberapa prinsip inti untuk membuat alat berkualitas tinggi untuk agen AI:

  1. Pemilihan Alat Strategis: Pilih dengan bijak alat mana yang akan diimplementasikan, dan yang krusial, mana yang tidak. Membebani agen dengan alat yang tidak perlu dapat menyebabkan kebingungan dan inefisiensi.
  2. Namespacing Jelas: Definisikan batas dan fungsionalitas yang jelas untuk setiap alat melalui namespacing yang efektif. Ini membantu agen memahami cakupan dan tujuan yang tepat dari setiap kemampuan.
  3. Pengembalian Konteks Bermakna: Alat harus mengembalikan konteks yang ringkas dan relevan kepada agen, memungkinkan pengambilan keputusan yang tepat tanpa informasi yang bertele-tele atau tidak perlu.
  4. Optimasi Efisiensi Token: Optimalkan respons alat agar efisien token. Dalam interaksi LLM, setiap token sangat berarti untuk biaya dan kecepatan pemrosesan.
  5. Rekayasa Prompt yang Tepat: Rekayasa prompt dengan cermat deskripsi dan spesifikasi alat. Instruksi yang jelas dan tidak ambigu sangat penting bagi agen untuk menafsirkan dan memanfaatkan alat dengan benar.

Dengan mematuhi prinsip-prinsip ini dan merangkul siklus pengembangan yang iteratif, dibantu agen, pengembang dapat membangun alat yang tangguh, efisien, dan sangat efektif yang secara signifikan meningkatkan performa dan kemampuan agen AI, mendorong batas-batas apa yang dapat dicapai oleh sistem cerdas ini.

Pertanyaan yang Sering Diajukan

What is the Model Context Protocol (MCP) and how does it relate to AI agents?
The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.
Why is designing tools specifically for non-deterministic AI agents different from traditional software development?
Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.
What are the critical steps in evaluating the performance of AI agent tools?
Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.
How can AI agents like Claude optimize their own tools?
Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.
What are the key principles for writing high-quality tools for AI agents?
Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Tetap Update

Dapatkan berita AI terbaru di inbox Anda.

Bagikan