Code Velocity
Алатници за програмери

Алатници за агенти: Подобрување на перформансите на вештачката интелигенција со оптимизација на Claude

·7 мин читање·Anthropic·Оригинален извор
Сподели
Илустрација на евалуација и оптимизација на алатки за AI агенти користејќи Claude Code за подобрени перформанси.

title: "Алатници за агенти: Подобрување на перформансите на вештачката интелигенција со оптимизација на Claude" slug: "writing-tools-for-agents" date: "2026-03-08" lang: "mk" source: "https://www.anthropic.com/engineering/writing-tools-for-agents" category: "Алатници за програмери" keywords:

  • AI агенти
  • LLM алатки
  • Anthropic Claude
  • Оптимизација на алатки
  • Агентни AI системи
  • Протокол за контекст на модел (MCP)
  • Евалуација на алатки
  • Промпт инженеринг
  • Алатници за програмери
  • AI перформанси
  • Недетерминистички системи
  • Развој на софтвер meta_description: "Откријте како да пишувате и оптимизирате висококвалитетни алатки за AI агенти со Anthropic Claude. Научете за градење прототипови, сеопфатни евалуации и соработка со агенти за подобрени перформанси на вештачката интелигенција." image: "/images/articles/writing-tools-for-agents.png" image_alt: "Илустрација на евалуација и оптимизација на алатки за AI агенти користејќи Claude Code за подобрени перформанси." quality_score: 94 content_score: 93 seo_score: 95 companies:
  • Anthropic schema_type: "NewsArticle" reading_time: 7 faq:
  • question: "Што е Протоколот за контекст на модел (MCP) и како е поврзан со AI агентите?" answer: "Протоколот за контекст на модел (MCP) е рамка дизајнирана да ги зајакне агентите на големи јазични модели (LLM) со обезбедување пристап до потенцијално стотици алатки, овозможувајќи им да решаваат сложени задачи од реалниот свет. Тој дефинира стандардизиран начин за агентите да комуницираат со надворешни системи и извори на податоци, трансформирајќи го начинот на кој AI агентите можат да користат детерминистички софтвер. Наместо агентите да се потпираат исклучиво на нивното внатрешно знаење, MCP им овозможува да користат специјализирани алатки, слично како што човекот користи разни апликации или референци за да заврши задачи, со што значително се прошируваат нивните способности и ефективност низ различни домени."
  • question: "Зошто дизајнирањето алатки специјално за недетерминистички AI агенти е различно од традиционалниот развој на софтвер?" answer: "Традиционалниот развој на софтвер типично вклучува креирање договори помеѓу детерминистички системи, каде што даден влез секогаш дава ист предвидлив излез. AI агентите, сепак, се недетерминистички, што значи дека нивните одговори може да варираат дури и при идентични почетни услови. Оваа фундаментална разлика бара преиспитување на дизајнот на алатките. Наместо да се претпоставуваат прецизни, статични интеракции, алатките за AI агенти мора да бидат доволно робусни за да се справат со разновидно агентно расудување, потенцијални недоразбирања, па дури и халуцинации. Целта е да се направат алатките 'ергономски' за агентите, олеснувајќи ги нивните разновидни стратегии за решавање проблеми, што често резултира со изненадувачки интуитивни алатки и за човечките корисници."
  • question: "Кои се клучните чекори во евалуацијата на перформансите на алатките за AI агенти?" answer: "Евалуацијата на алатките за AI агенти вклучува систематски пристап кој започнува со генерирање разновиден сет на задачи за евалуација од реалниот свет. Овие задачи треба да бидат доволно сложени за да ги стрес-тестираат алатките, потенцијално барајќи повеќе повици до алатките. Потоа, евалуацијата се извршува програмски, типично користејќи агентни јамки кои симулираат како агентот би комуницирал со алатките. Клучните метрики што се собираат вклучуваат точност, вкупно време на извршување, број на повици до алатките, потрошувачка на токени и грешки во алатките. Конечно, анализата на резултатите вклучува агентите да обезбедат расудување и повратни информации, прегледување на необработени транскрипти и идентификување на шеми во употребата на алатките или грешки за да се утврдат областите за подобрување во описите, шемите или имплементациите на алатките."
  • question: "Како AI агентите како Claude можат да ги оптимизираат своите алатки?" answer: "Anthropic демонстрира дека AI агентите, особено моделите како Claude Code, можат да играат клучна улога во оптимизирањето на алатките што ги користат. Ова се постигнува со внесување на транскрипти на агентот и резултати од евалуации на алатките. Claude потоа може да ги анализира овие интеракции, да идентификува неефикасности, недоследности или области каде што описите на алатките се нејасни, и да предложи рефакторирања. На пример, може да обезбеди дека имплементациите и описите на алатките остануваат само-доследни по промените или да препорача прилагодувања на параметрите за подобра ефикасност на токените. Овој колаборативен пристап ги користи аналитичките способности на агентот за континуирано подобрување на квалитетот и ергономијата на неговиот сет на алатки, што доведува до подобрени перформанси."
  • question: "Кои се клучните принципи за пишување висококвалитетни алатки за AI агенти?" answer: "Неколку основни принципи го водат создавањето ефективни алатки за AI агенти. Прво, мудрото избирање кои алатки да се имплементираат (и кои да се изостават) е клучно за јасноста и ефикасноста на агентот. Второ, јасното именување на алатките ги дефинира нивните функционални граници, намалувајќи ја двосмисленоста за агентот. Трето, алатките треба да вратат значаен и концизен контекст до агентите, помагајќи им во донесувањето одлуки. Четврто, оптимизирањето на одговорите на алатките за ефикасност на токени е од витално значење за управување со трошоците и брзината на обработка во LLM интеракциите. Конечно, прецизниот промпт-инженеринг на описите и спецификациите на алатките осигурува дека агентите точно ја разбираат и користат целта и можностите на секоја алатка, минимизирајќи ги грешките и максимизирајќи ја ефективноста."

## Клучната улога на алатките во перформансите на AI агентите

Во брзо развивачкиот пејзаж на вештачката интелигенција, ефикасноста на интелигентниот агент во голема мера зависи од квалитетот и корисноста на алатките што ги користи. Како што моделите на вештачка интелигенција стануваат сè поспособни, овозможувајќи им да извршуваат сложени задачи во повеќе чекори, начинот на кој тие комуницираат со надворешни системи – преку „алатки“ – станува клучен. Anthropic, лидер во истражувањето и развојот на вештачка интелигенција, сподели клучни сознанија за тоа како да се изградат, евалуираат, па дури и оптимизираат овие алатки, драматично подобрувајќи ги перформансите на агентите.

Во срцето на овој пристап лежи Протоколот за контекст на модел (MCP), систем дизајниран да ги зајакне агентите на големи јазични модели (LLM) со пристап до огромен број функционалности. Сепак, самото обезбедување алатки не е доволно; тие мора да бидат максимално ефективни. Оваа статија навлегува во докажаните техники на Anthropic за подобрување на агентните AI системи, нагласувајќи како AI моделите како Claude можат заеднички да ги дотераат сопствените сетови на алатки. Патот од почетниот концепт до оптимизирана алатка вклучува прототипирање, ригорозна евалуација и колаборативна повратна врска со самиот агент.

## Разбирање на алатките за AI агенти: Нова парадигма за софтвер

Традиционално, развојот на софтвер работи на детерминистички принципи: со даден ист влез, функцијата секогаш ќе го произведе истиот предвидлив излез. Размислете за едноставен повик `getWeather("NYC")`; тој постојано го презема времето во Њујорк на идентичен начин. Меѓутоа, AI агентите, како што е Claude на Anthropic, работат како *недетерминистички* системи. Ова значи дека нивните одговори може да варираат дури и при идентични почетни услови.

Оваа фундаментална разлика налага промена на парадигмата при дизајнирањето софтвер за агенти. Алатките за AI агенти не се само функции или API за други програмери; тие се интерфејси дизајнирани за интелигентен, но понекогаш непредвидлив ентитет. Кога корисникот прашува: „Треба ли да земам чадор денес?“, агентот може да повика алатка за времето, да користи општо знаење или дури да побара појаснување за локацијата. Понекогаш, агентите може да халуцинираат или да не разберат како правилно да користат алатка.

Затоа, целта е да се зголеми „површината“ на која агентите можат да бидат ефективни. Ова значи создавање алатки кои се не само робусни, туку и „ергономски“ за агентите да ги користат. Интересно, искуството на Anthropic покажува дека алатките дизајнирани со недетерминистичката природа на агентот на ум често излегуваат изненадувачки интуитивни и лесни за разбирање и за луѓето. Оваа перспектива за развој на алатки е клучна за отклучување на целосниот потенцијал на софистицирани модели како [Claude Opus](/mk/claude-opus-4-6) или [Claude Sonnet](/mk/claude-sonnet-4-6) во апликации од реалниот свет.

## Развој на ефективни AI алатки: Од прототип до оптимизација

Патот на создавање ефективни алатки за AI агенти е итеративен процес на градење, тестирање и дотерување. Anthropic нагласува практичен пристап, почнувајќи со брзо прототипирање, а потоа преминувајќи на сеопфатна евалуација.

### Градење брз прототип

Предвидувањето како агентите ќе комуницираат со алатките може да биде предизвикувачко без практично искуство. Првиот чекор вклучува брзо поставување прототип. Доколку програмерите користат агент како [Claude Code](https://www.anthropic.com/claude-code) за креирање алатки, обезбедувањето добро структурирана документација за која било основна софтверска библиотека, API или SDK (вклучувајќи го MCP SDK) е клучно. Рамни 'llms.txt' датотеки, често пронајдени на официјални страници за документација, се особено пријателски настроени кон LLM.

Овие прототипови можат да бидат обвиткани во локален MCP сервер или Desktop Extension (DXT) за да се олесни локалното тестирање во Claude Code или десктоп апликацијата Claude. За програмско тестирање, алатките исто така можат директно да се пренесат во повици на Anthropic API. Оваа почетна фаза ги поттикнува програмерите лично да ги тестираат алатките, да соберат повратни информации од корисниците и да изградат интуиција околу очекуваните случаи на употреба и промптите што алатките треба да ги обработат.

### Спроведување сеопфатна евалуација

Откако прототипот ќе биде функционален, следниот клучен чекор е да се измери колку ефикасно агентот ги користи овие алатки преку систематска евалуација. Ова вклучува генерирање мноштво задачи за евалуација базирани на сценарија од реалниот свет.

#### Генерирање задачи за евалуација

Задачите за евалуација треба да бидат инспирирани од вистинските кориснички прашања и да користат реални извори на податоци. Важно е да се избегнат поедноставени „песочнички“ средини кои не ја тестираат адекватно сложеноста на алатките. Силните задачи за евалуација често бараат агентите да направат повеќе повици до алатките за да постигнат решение.

| Тип на задача | Силен пример | Слаб пример |
| :-------- | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | :----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Закажување состаноци** | „Закажи состанок со Џејн следната недела за да разговараме за нашиот најнов проект Acme Corp. Прикачи ги белешките од нашиот последен состанок за планирање проекти и резервирај конференциска сала.“ | „Закажи состанок со jane@acme.corp следната недела.“ |
| **Кориснички сервис** | „Клиент ID 9182 пријави дека трипати му било наплатено за еден обид за купување. Пронајдете ги сите релевантни записи во дневникот и утврдете дали некои други клиенти биле погодени од истиот проблем.“ | „Пребарај ги дневниците за плаќања за 'purchase_complete' и 'customer_id=9182'.“ |
| **Анализа на задржување** | „Клиентот Сара Чен штотуку поднесе барање за откажување. Подготви понуда за задржување. Утврди: (1) зошто си заминуваат, (2) која понуда за задржување би била најпривлечна и (3) какви било фактори на ризик за кои треба да бидеме свесни пред да дадеме понуда.“ | „Пронајди го барањето за откажување од клиент ID 45892.“ |

Секој промпт треба да биде спарен со одговор или исход што може да се провери. Верификаторите можат да варираат од едноставни споредби на низи до понапредни евалуации што вклучуваат агент за да го процени одговорот. Клучно е да се избегнат премногу строги верификатори кои би можеле да отфрлат валидни одговори поради мали разлики во форматирањето. По желба, програмерите можат да ги наведат очекуваните повици до алатките, иако тоа треба да се направи внимателно за да се избегне прекумерно специфицирање или прекумерно приспособување на одредени стратегии, бидејќи агентите може да најдат повеќе валидни патишта до решение.

#### Програмско извршување на евалуацијата

Anthropic препорачува програмско извршување на евалуациите користејќи директни повици до LLM API во едноставни агентни јамки (на пример, `while` јамки кои се менуваат помеѓу LLM API и повици до алатки). Секој агент за евалуација добива еден промпт за задача и алатките. Во системските промпти за овие агенти, корисно е да им се наложи да излегуваат структурирани блокови за одговор (за верификација), расудување и блокови за повратни информации *пред* повикот до алатката и блоковите за одговор. Ова поттикнува однесувања на синџир на размислување (CoT), зголемувајќи ја ефективната интелигенција на LLM. Функцијата „испреплетено размислување“ на Claude нуди слична функционалност веднаш по инсталацијата, обезбедувајќи увид во тоа зошто агентите прават специфични избори на алатки.

Освен врвната точност, собирањето метрики како што се вкупно време на извршување, број на повици до алатките, потрошувачка на токени и грешки во алатките е од витално значење. Следењето на повиците до алатките може да открие вообичаени работни текови на агентите, сугерирајќи можности за консолидација или дотерување на алатките.

## Оптимизирање алатки со AI: Колаборативниот пристап на Claude

Анализата на резултатите од евалуацијата е критична фаза. Самите агенти можат да бидат непроценливи партнери во овој процес, забележувајќи проблеми и обезбедувајќи повратни информации. Сепак, нивните повратни информации не се секогаш експлицитни; она што го *испуштаат* може да биде исто толку кажувачко како и она што го *вклучуваат*. Програмерите треба внимателно да го испитаат расудувањето на агентот (CoT), да ги прегледаат необработените транскрипти (вклучувајќи повици до алатките и одговори) и да ги анализираат метриките за повикување алатки. На пример, излишните повици до алатките може да укажуваат на потреба од прилагодување на пагинацијата или ограничувањата на токените, додека честите грешки поради невалидни параметри може да укажуваат на нејасни описи на алатките.

Забележителен пример од Anthropic вклучуваше алатката за веб пребарување на Claude, каде што непотребно додаде '2025' на пребарувањата, пристрасувајќи ги резултатите. Подобрувањето на описот на алатката беше клучно за насочување на Claude во вистинската насока.

Најиновативниот аспект на методологијата на Anthropic е способноста да им се дозволи на агентите да ги анализираат *сопствените* резултати и да ги подобрат своите алатки. Со спојување на транскриптите за евалуација и нивно внесување во Claude Code, програмерите можат да ја искористат експертизата на Claude во анализирање сложени интеракции и рефакторирање алатки. Claude е одличен во обезбедувањето конзистентност помеѓу имплементациите и описите на алатките, дури и низ бројни промени. Оваа моќна повратна врска значи дека голем дел од сопствените совети на Anthropic за развој на алатки се генерирани и дотерани токму преку овој процес на оптимизација со помош на агенти, што е одраз на растечкиот тренд на [агентни работни текови](github-agentic-workflows) во развојот на софтвер.

## Клучни принципи за развој на висококвалитетни алатки за агенти

Преку обемни експерименти и оптимизација водена од агенти, Anthropic идентификуваше неколку основни принципи за креирање висококвалитетни алатки за AI агенти:

1.  **Стратешки избор на алатки:** Мудро изберете кои алатки да ги имплементирате, и критично, кои да не ги имплементирате. Преоптоварувањето на агентот со непотребни алатки може да доведе до конфузија и неефикасност.
2.  **Јасно именување на простори:** Дефинирајте јасни граници и функционалности за секоја алатка преку ефективно именување на простори. Ова им помага на агентите да го разберат прецизниот опсег и целта на секоја способност.
3.  **Враќање на значаен контекст:** Алатките треба да враќаат концизен и релевантен контекст до агентот, овозможувајќи донесување информирани одлуки без опширни или излишни информации.
4.  **Оптимизација на ефикасноста на токените:** Оптимизирајте ги одговорите на алатките за да бидат ефикасни во однос на токените. Во LLM интеракциите, секој токен е важен и за трошоците и за брзината на обработка.
5.  **Прецизен промпт инженеринг:** Детално извршете промпт инженеринг на описите и спецификациите на алатките. Јасните, недвосмислени упатства се од витално значење за агентите правилно да ги толкуваат и користат алатките.

Придржувајќи се до овие принципи и прифаќајќи итеративен циклус на развој со помош на агенти, програмерите можат да изградат робусни, ефикасни и многу ефективни алатки кои значително ги подобруваат перформансите и можностите на AI агентите, поместувајќи ги границите на она што овие интелигентни системи можат да го постигнат.

Често поставувани прашања

What is the Model Context Protocol (MCP) and how does it relate to AI agents?
The Model Context Protocol (MCP) is a framework designed to empower large language model (LLM) agents by providing them with access to potentially hundreds of tools, enabling them to solve complex real-world tasks. It defines a standardized way for agents to interact with external systems and data sources, transforming how AI agents can leverage deterministic software. Rather than agents relying solely on their internal knowledge, MCP allows them to use specialized tools, much like a human uses various applications or references to complete tasks, thus significantly expanding their capabilities and effectiveness across diverse domains.
Why is designing tools specifically for non-deterministic AI agents different from traditional software development?
Traditional software development typically involves creating contracts between deterministic systems, where a given input always yields the same predictable output. AI agents, however, are non-deterministic, meaning their responses can vary even with identical starting conditions. This fundamental difference requires rethinking tool design. Instead of assuming precise, static interactions, tools for AI agents must be robust enough to handle varied agentic reasoning, potential misunderstandings, or even hallucinations. The goal is to make tools 'ergonomic' for agents, facilitating their diverse problem-solving strategies, which often results in surprisingly intuitive tools for human users too.
What are the critical steps in evaluating the performance of AI agent tools?
Evaluating AI agent tools involves a systematic approach starting with generating a diverse set of real-world evaluation tasks. These tasks should be complex enough to stress-test tools, potentially requiring multiple tool calls. Next, the evaluation is run programmatically, typically using agentic loops that simulate how an agent would interact with the tools. Key metrics collected include accuracy, total runtime, number of tool calls, token consumption, and tool errors. Finally, analyzing results involves having agents provide reasoning and feedback, reviewing raw transcripts, and identifying patterns in tool usage or errors to pinpoint areas for improvement in tool descriptions, schemas, or implementations.
How can AI agents like Claude optimize their own tools?
Anthropic demonstrates that AI agents, particularly models like Claude Code, can play a pivotal role in optimizing the very tools they use. This is achieved by feeding the agent transcripts and results from tool evaluations. Claude can then analyze these interactions, identify inefficiencies, inconsistencies, or areas where tool descriptions are unclear, and suggest refactorings. For instance, it can ensure that tool implementations and descriptions remain self-consistent after changes or recommend adjustments to parameters for better token efficiency. This collaborative approach leverages the agent's analytical capabilities to continuously improve the quality and ergonomics of its toolset, leading to enhanced performance.
What are the key principles for writing high-quality tools for AI agents?
Several core principles guide the creation of effective tools for AI agents. Firstly, judiciously choosing which tools to implement (and which to omit) is crucial for agent clarity and efficiency. Secondly, namespacing tools clearly defines their functional boundaries, reducing ambiguity for the agent. Thirdly, tools should return meaningful and concise context to agents, aiding their decision-making. Fourthly, optimizing tool responses for token efficiency is vital for managing costs and processing speed in LLM interactions. Lastly, meticulous prompt-engineering of tool descriptions and specifications ensures agents accurately understand and utilize each tool's purpose and capabilities, minimizing errors and maximizing effectiveness.

Бидете информирани

Добивајте ги најновите AI вести на е-пошта.

Сподели