Įrankių esminis vaidmuo DI agentų našume
Sparčiai besikeičiančioje DI aplinkoje, protingo agento veiksmingumas labai priklauso nuo jo naudojamų įrankių kokybės ir naudingumo. Kadangi dirbtinio intelekto modeliai tampa vis pajėgesni, leidžiantys jiems atlikti sudėtingas, daugiapakopes užduotis, jų sąveika su išorinėmis sistemomis – per "įrankius" – tampa ypač svarbi. Anthropic, DI tyrimų ir plėtros lyderė, pasidalino svarbiomis įžvalgomis, kaip kurti, vertinti ir net optimizuoti šiuos įrankius, žymiai padidinant agentų našumą.
Šio požiūrio esmė yra Modelio konteksto protokolas (MCP) – sistema, sukurta suteikti didelių kalbos modelių (DKM) agentams prieigą prie plataus funkcijų spektro. Tačiau vien tik įrankių teikimo nepakanka; jie turi būti maksimaliai efektyvūs. Šiame straipsnyje gilinamasi į Anthropic patikrintas technikas, skirtas agentinių DI sistemų tobulinimui, pabrėžiant, kaip DI modeliai, tokie kaip Claude, gali bendradarbiaudami tobulinti savo įrankių rinkinius. Kelias nuo pirminės koncepcijos iki optimizuoto įrankio apima prototipų kūrimą, griežtą vertinimą ir bendradarbiavimo grįžtamojo ryšio ciklą su pačiu agentu.
DI agentų įrankių supratimas: nauja programinės įrangos paradigma
Tradiciniame programinės įrangos kūrime laikomasi deterministinių principų: esant tai pačiai įvesčiai, funkcija visada sukurs tą patį rezultatą. Apsvarstykite paprastą getWeather("NYC") iškvietimą; jis nuolat ir identiškai gauna Niujorko orus. Tačiau DI agentai, tokie kaip Anthropic Claude, veikia kaip nedeterministinės sistemos. Tai reiškia, kad jų atsakymai gali skirtis net esant identiškoms pradinėms sąlygoms.
Šis esminis skirtumas reikalauja paradigmos pokyčių kuriant programinę įrangą agentams. DI agentų įrankiai nėra tik funkcijos ar API kitiems kūrėjams; tai yra sąsajos, skirtos protingam, tačiau kartais nenuspėjamam subjektui. Kai vartotojas paklausia: "Ar šiandien man reikia pasiimti skėtį?", agentas gali iškviesti orų įrankį, pasinaudoti bendromis žiniomis ar net paprašyti patikslinti vietą. Kartais agentai gali haliucinuoti arba nesuprasti, kaip tinkamai naudoti įrankį.
Todėl tikslas yra padidinti 'paviršiaus plotą', kuriame agentai gali būti veiksmingi. Tai reiškia, kad reikia kurti įrankius, kurie būtų ne tik patikimi, bet ir 'ergonomiški' agentams naudoti. Įdomu tai, kad Anthropic patirtis rodo, jog įrankiai, sukurti atsižvelgiant į nedeterministinį agento pobūdį, dažnai pasirodo esą stebėtinai intuityvūs ir lengvai suprantami ir žmonėms. Ši įrankių kūrimo perspektyva yra raktas į visiško potencialo atskleidimą sudėtingiems modeliams, tokiems kaip Claude Opus ar Claude Sonnet, realaus pasaulio programose.
Efektyvių DI įrankių kūrimas: nuo prototipo iki optimizavimo
Efektyvių DI agentų įrankių kūrimo kelias yra iteracinis kūrimo, testavimo ir tobulinimo procesas. Anthropic pabrėžia praktinį požiūrį, pradedant greitu prototipų kūrimu, o vėliau pereinant prie išsamaus vertinimo.
Greito prototipo kūrimas
Numatyti, kaip agentai sąveikaus su įrankiais, gali būti sudėtinga be praktinės patirties. Pirmasis žingsnis apima greitą prototipo sukūrimą. Jei kūrėjai naudoja agentą, pvz., Claude Code, įrankių kūrimui, gerai struktūrizuotos dokumentacijos teikimas bet kokioms pagrindinėms programinės įrangos bibliotekoms, API ar SDK (įskaitant MCP SDK) yra labai svarbus. Plokšti 'llms.txt' failai, dažnai randami oficialiose dokumentacijos svetainėse, yra ypač patogūs DKM.
Šie prototipai gali būti apvynioti vietiniu MCP serveriu arba darbalaukio plėtiniu (DXT), kad būtų palengvintas vietinis testavimas Claude Code arba Claude Desktop programėlėje. Programiniam testavimui įrankius taip pat galima tiesiogiai perduoti Anthropic API iškvietimams. Šiame pradiniame etape kūrėjai skatinami asmeniškai išbandyti įrankius, rinkti naudotojų atsiliepimus ir ugdyti intuiciją dėl numatomų naudojimo atvejų ir užklausų, kurias įrankiai turi apdoroti.
Išsamaus vertinimo atlikimas
Kai prototipas veikia, kitas kritinis žingsnis yra išmatuoti, kaip efektyviai agentas naudoja šiuos įrankius, atliekant sistemingą vertinimą. Tai apima daugybės vertinimo užduočių, pagrįstų realaus pasaulio scenarijais, generavimą.
Vertinimo užduočių generavimas
Vertinimo užduotys turėtų būti įkvėptos realių vartotojų užklausų ir naudoti realistiškus duomenų šaltinius. Svarbu vengti supaprastintų 'smėlio dėžės' aplinkų, kurios tinkamai nepatikrina įrankių sudėtingumo. Stiprios vertinimo užduotys dažnai reikalauja, kad agentai atliktų kelis įrankių iškvietimus, kad pasiektų sprendimą.
| Užduoties tipas | Geras pavyzdys | Silpnas pavyzdys |
|---|---|---|
| Susitikimo planavimas | "Suplanuokite susitikimą su Jane kitą savaitę, kad aptartume mūsų naujausią "Acme Corp" projektą. Pridėkite užrašus iš paskutinio mūsų projekto planavimo susitikimo ir rezervuokite konferencijų salę." | "Suplanuokite susitikimą su jane@acme.corp kitą savaitę." |
| Klientų aptarnavimas | "Klientas, kurio ID yra 9182, pranešė, kad jam tris kartus buvo apmokestinta už vieną pirkimo bandymą. Raskite visus susijusius žurnalų įrašus ir nustatykite, ar kiti klientai buvo paveikti tos pačios problemos." | "Ieškoti mokėjimų žurnaluose 'purchase_complete' ir 'customer_id=9182'." |
| Klientų išlaikymo analizė | "Klientė Sarah Chen ką tik pateikė atšaukimo prašymą. Parengti išlaikymo pasiūlymą. Nustatyti: (1) kodėl jie išeina, (2) koks išlaikymo pasiūlymas būtų patraukliausias, ir (3) kokius rizikos veiksnius turėtume žinoti prieš teikiant pasiūlymą." | "Rasti atšaukimo užklausą pagal kliento ID 45892." |
Kiekviena užklausa turėtų būti suporuota su patikrinamu atsakymu arba rezultatu. Tikrintojai gali svyruoti nuo paprastų eilučių palyginimų iki sudėtingesnių vertinimų, pasitelkiant agentą atsakymui įvertinti. Labai svarbu vengti pernelyg griežtų tikrintojų, kurie gali atmesti galiojančius atsakymus dėl nedidelių formatavimo skirtumų. Pasirinktinai kūrėjai gali nurodyti numatomus įrankių iškvietimus, nors tai turėtų būti daroma atsargiai, kad būtų išvengta per didelio specifikavimo ar pritaikymo konkrečioms strategijoms, nes agentai gali rasti kelis galiojančius sprendimo kelius.
Vertinimo vykdymas programiškai
Anthropic rekomenduoja vykdyti vertinimus programiškai, naudojant tiesioginius DKM API iškvietimus paprastuose agentiniuose cikluose (pvz., while cikluose, pakaitomis tarp DKM API ir įrankių iškvietimų). Kiekvienam vertinimo agentui pateikiama viena užduoties užklausa ir įrankiai. Šių agentų sistemos užklausose naudinga nurodyti jiems išvesti struktūrizuotus atsakymų blokus (patvirtinimui), samprotavimus ir atsiliepimų blokus prieš įrankių iškvietimo ir atsakymų blokus. Tai skatina 'minčių grandinės' (CoT) elgseną, didinant DKM efektyvųjį intelektą. Claude 'persipynusio mąstymo' funkcija siūlo panašias galimybes iškart, suteikiant įžvalgų, kodėl agentai pasirenka konkrečius įrankius.
Be aukščiausio lygio tikslumo, gyvybiškai svarbu rinkti metrikas, tokias kaip bendras vykdymo laikas, įrankių iškvietimų skaičius, žetonų suvartojimas ir įrankių klaidos. Įrankių iškvietimų stebėjimas gali atskleisti įprastus agentų darbo srautus, siūlant galimybes įrankių konsolidavimui ar patobulinimui.
Įrankių optimizavimas su DI: Claude bendradarbiavimo metodas
Vertinimo rezultatų analizė yra kritinis etapas. Patys agentai gali būti neįkainojami partneriai šiame procese, aptinkant problemas ir teikiant atsiliepimus. Tačiau jų atsiliepimai ne visada yra aiškūs; tai, ką jie praleidžia, gali būti taip pat iškalbinga, kaip ir tai, ką jie įtraukia. Kūrėjai turėtų kruopščiai išnagrinėti agentų samprotavimus (CoT), peržiūrėti neapdorotus įrašus (įskaitant įrankių iškvietimus ir atsakymus) ir analizuoti įrankių iškvietimo metrikas. Pavyzdžiui, pasikartojantys įrankių iškvietimai gali signalizuoti apie poreikį koreguoti puslapiavimą ar žetonų limitus, o dažnos klaidos dėl neteisingų parametrų gali reikšti neaiškius įrankių aprašymus.
Ryškus Anthropic pavyzdys apėmė Claude žiniatinklio paieškos įrankį, kur jis be reikalo pridėdavo '2025' prie užklausų, iškreipdamas rezultatus. Įrankio aprašymo tobulinimas buvo esminis siekiant nukreipti Claude teisinga linkme.
Inovatyviausias Anthropic metodikos aspektas yra galimybė leisti agentams analizuoti savo pačių rezultatus ir tobulinti savo įrankius. Sudėjus vertinimo įrašus ir pateikus juos Claude Code, kūrėjai gali pasinaudoti Claude patirtimi analizuojant sudėtingas sąveikas ir refaktorizuojant įrankius. Claude puikiai užtikrina nuoseklumą tarp įrankių įdiegimo ir aprašymų, net ir po daugybės pakeitimų. Šis galingas grįžtamojo ryšio ciklas reiškia, kad didžioji dalis Anthropic patarimų dėl įrankių kūrimo buvo sugeneruota ir patobulinta per patį agentų pagalba atliekamo optimizavimo procesą, atspindint augančią agentinių darbo eigų tendenciją programinės įrangos kūrime.
Pagrindiniai aukštos kokybės agentų įrankių kūrimo principai
Per plataus masto eksperimentus ir agentų valdomą optimizavimą, Anthropic nustatė keletą pagrindinių principų, skirtų aukštos kokybės įrankių kūrimui DI agentams:
- Strateginis įrankių pasirinkimas: Išmintingai pasirinkite, kuriuos įrankius diegti, ir kritiškai – kurių ne. Perkrovus agentą nereikalingais įrankiais, gali kilti painiava ir neefektyvumas.
- Aiškus pavadinimų erdvės (Namespacing) naudojimas: Apibrėžkite aiškias ribas ir funkcionalumą kiekvienam įrankiui efektyviai naudojant pavadinimų erdvę. Tai padeda agentams tiksliai suprasti kiekvienos galimybės apimtį ir paskirtį.
- Prasmingo konteksto grąžinimas: Įrankiai turėtų grąžinti glaustą ir aktualų kontekstą agentui, leidžiantį priimti pagrįstus sprendimus be perteklinės ar nereikalingos informacijos.
- Žetonų efektyvumo optimizavimas: Optimizuokite įrankių atsakymus, kad jie būtų efektyvūs žetonų atžvilgiu. DKM sąveikose kiekvienas žetonas yra svarbus tiek kainos, tiek apdorojimo greičio požiūriu.
- Tikslus užklausų inžinerija: Kruopščiai apdorokite įrankių aprašymus ir specifikacijas. Aiškios, nedviprasmiškos instrukcijos yra gyvybiškai svarbios, kad agentai teisingai interpretuotų ir naudotų įrankius.
Laikydamiesi šių principų ir taikydami iteracinį, agentų pagalba paremtą kūrimo ciklą, kūrėjai gali sukurti patikimus, efektyvius ir labai veiksmingus įrankius, kurie žymiai padidina DI agentų našumą ir galimybes, praplečiant ribas, ką šios išmaniosios sistemos gali pasiekti.
Originalus šaltinis
https://www.anthropic.com/engineering/writing-tools-for-agentsDažniausiai užduodami klausimai
What is the Model Context Protocol (MCP) and how does it relate to AI agents?
Why is designing tools specifically for non-deterministic AI agents different from traditional software development?
What are the critical steps in evaluating the performance of AI agent tools?
How can AI agents like Claude optimize their own tools?
What are the key principles for writing high-quality tools for AI agents?
Būkite informuoti
Gaukite naujausias AI naujienas el. paštu.
