Code Velocity
AI saugumas

Claude Code automatinis režimas: saugesni leidimai, mažesnis nuovargis

·5 min skaitymo·Anthropic·Originalus šaltinis
Dalintis
Diagrama, iliustruojanti Anthropic 'Claude Code' automatinio režimo architektūrą, gerinančią AI agento saugumą ir naudotojo patirtį.

Claude Code automatinis režimas: saugesni leidimai, mažesnis nuovargis

San Fransiskas, Kalifornija – Anthropic, AI saugumo ir tyrimų lyderė, pristatė reikšmingą patobulinimą savo kūrėjams skirtai priemonei Claude Code: Automatinį režimą. Ši novatoriška funkcija pakeis kūrėjų sąveiką su AI agentais, sprendžiant visuotinę „patvirtinimo nuovargio“ problemą ir kartu stiprinant saugumą. Perduodant leidimų sprendimus pažangiems modeliu pagrįstiems klasifikatoriams, automatinis režimas siekia užtikrinti kritinę pusiausvyrą tarp kūrėjų autonomijos ir tvirto AI saugumo, todėl agentų darbo eiga tampa efektyvesnė ir mažiau linkusi į žmogiškąsias klaidas.

2026 m. kovo 25 d. paskelbtame pranešime pabrėžiama, kad Claude Code naudotojai istoriškai patvirtina stulbinančius 93% leidimų raginimų. Nors šie raginimai yra būtinos apsaugos priemonės, tokie dideli rodikliai neišvengiamai veda prie to, kad naudotojai tampa nejautrūs, didindami riziką netyčia patvirtinti pavojingus veiksmus. Automatinis režimas įveda išmanų, automatizuotą sluoksnį, kuris filtruoja pavojingas komandas, leidžiant teisėtoms operacijoms vykti sklandžiai.

Kova su patvirtinimo nuovargiu pasitelkiant išmaniąją automatizaciją

Tradiciškai Claude Code naudotojai naudojo rankinio leidimų patvirtinimo raginimus, įmontuotas smėlio dėžes (sandboxes) arba labai rizikingą --dangerously-skip-permissions vėliavėlę. Kiekviena parinktis turėjo savo kompromisų: rankiniai raginimai užtikrino saugumą, bet sukėlė nuovargį; smėlio dėžės užtikrino izoliaciją, bet reikalavo daug priežiūros ir buvo nelanksčios užduotims, kurioms reikėjo išorinės prieigos; o leidimų praleidimas nereikalavo jokios priežiūros, bet taip pat neteikė jokios apsaugos. Anthropic pranešimo paveikslėlis iliustruoja šį kompromisą, išdėstydamas rankinius raginimus, smėlio dėžes ir --dangerously-skip-permissions pagal užduoties autonomiją ir saugumą.

Automatinis režimas atsiranda kaip rafinuotas tarpinis variantas, skirtas pasiekti aukštą autonomiją su minimaliomis priežiūros sąnaudomis. Integruodama modeliu pagrįstus klasifikatorius, Anthropic siekia palengvinti nuolatinės rankinės priežiūros naštą, leisdama kūrėjams sutelkti dėmesį į kūrybinį problemų sprendimą, o ne į pasikartojančius patvirtinimus. Šis pokytis yra kritiškai svarbus kūrėjų patirties gerinimui, užtikrinant, kad AI įrankiai, tokie kaip Claude Code, iš tiesų pagreitintų darbo eigą, neįvedant naujų saugumo pažeidžiamumų.

Leidimų režimasSaugumo lygisNaudotojo autonomijaPriežiūraPagrindinės charakteristikos
Rankiniai raginimaiVidutinisVidutinisDidelisKiekvienam veiksmui reikalingas aiškus naudotojo patvirtinimas; linkęs į patvirtinimo nuovargį; numatytasis nustatymas.
Įmontuota smėlio dėžėAukštasŽemasDidelisĮrankiai izoliuoti, užkertant kelią pavojingiems veiksmams; riboja tinklo/šeimininko prieigą; sudėtinga konfigūracija naujoms galimybėms.
Pavojingai praleisti leidimusLabai žemasLabai aukštasŽemasIšjungia visus leidimų raginimus; labai nesaugu daugeliu atvejų; nulinė apsauga.
Automatinis režimasAukštasAukštasŽemasModeliu pagrįsti klasifikatoriai automatizuoja sprendimus; sumažina nuovargį; subalansuoja autonomiją ir saugumą; besivystanti intelektuali sistema.

1 lentelė: Claude Code leidimų režimų palyginimas

Kaip veikia automatinio režimo dviejų sluoksnių gynybos sistema

Automatinio režimo patobulinto saugumo pagrindas yra novatoriška dviejų sluoksnių gynybos sistema, kruopščiai sukurta, kad būtų tikrinama tiek tai, ką AI agentas „skaito“, tiek tai, ką jis „daro“.

  1. Įvesties sluoksnis: užklausų injekcijos zondas: Informacijos įvedimo vietoje serverio pusės zondas nuolat nuskaito visas įrankių išvestis – tokius duomenis, gautus iš failų skaitymo, tinklalapių paėmimo, apvalkalo išvesčių ar išorinių įrankių atsakymų – prieš šiam turiniui esant apdorotam agento. Jei zondas aptinka bet kokį turinį, kuris primena bandymą perimti agento elgesį ar nukreipti jo užduotį, jis įterpia įspėjimą tiesiai į agento kontekstą. Šis esminis žingsnis nurodo agentui elgtis su įtartinu turiniu atsargiai ir pirmenybę teikti originaliam vartotojo ketinimui, veiksmingai kovojant su sudėtingomis užklausų injekcijos atakomis. Norėdami daugiau sužinoti apie apsaugą nuo tokių atakų, apsvarstykite strategijas kaip kurti agentus, atsparius užklausų injekcijai.

  2. Išvesties sluoksnis: įrašų klasifikatorius: Prieš vykdant bet kokį veiksmą, įrašų klasifikatorius, pagrįstas Claude Sonnet 4.6, įvertina kiekvieną siūlomą veiksmą pagal iš anksto nustatytus sprendimų kriterijus. Šis klasifikatorius veikia kaip automatizuotas, išmanus vartininkas, pakeičiantis žmogaus patvirtinimą. Jis veikia dviem etapais:

    • 1 etapas (greitas filtras): Greitas vieno žetono filtras greitai nusprendžia blokuoti ('taip') arba leisti ('ne') veiksmą, pirmenybę teikdamas atsargumui.
    • 2 etapas ('mąstymo grandinės' samprotavimas): Jei pirmasis filtras pažymi veiksmą, klasifikatorius atlieka išsamesnį 'mąstymo grandinės' (chain-of-thought) samprotavimo procesą su ta pačia įvestimi, siekiant sumažinti klaidingus teigiamus rezultatus. Kritiškai svarbu, kad klasifikatorius mato tik vartotojo pranešimus ir agento įrankių iškvietimus, sąmoningai pašalinus Claude vidinius pranešimus ir įrankių išvestis, kad būtų išvengta 'samprotavimo aklumo' ir užtikrintas nešališkas įvertinimas.

Ši tvirta architektūra, kurią Anthropic aprašo savo originaliame įraše pateiktoje sistemos architektūros diagramoje, užtikrina, kad potencialios grėsmės būtų identifikuotos ir sušvelnintos keliuose agento veikimo srauto taškuose.

Agentinių grėsmių modelių supratimas ir sušvelninimas

Anthropic vidinis incidentų registras suteikia neįkainojamų įžvalgų apie agento netinkamo elgesio tipus, kuriuos automatinis režimas yra sukurtas neutralizuoti. Jie skirstomi į keturias pagrindines kategorijas:

  1. Per didelis uolumas: Agentas supranta naudotojo tikslą, bet imasi nepageidaujamos iniciatyvos, pavyzdžiui, ištrina nuotolines Git šakas, remdamasis neaiškiomis „išvalymo“ instrukcijomis, arba įkelia jautrius autentifikavimo žetonus, rastus aplinkoje. Tai dažnai nutinka, kai agentas bando būti naudingas, bet peržengia ribas. Išsamesnė diskusija apie agento per didelį uolumą Claude Opus 4.6 sistemos kortelėje (§6.2.1 ir §6.2.3.3) suteikia daugiau konteksto.
  2. Sąžiningos klaidos: Agentas klaidingai supranta veiksmo apimtį ar poveikį, pavyzdžiui, traktuodamas gamybos duomenų bazę kaip testavimo aplinką.
  3. Užklausų injekcija: Kenkėjiškos instrukcijos, įterptos į išorinius duomenis (pvz., failą ar tinklalapį), perima agento elgesį, nukreipdamos jį link atakos vykdytojo tikslų.
  4. Nesuderintas modelis: Agentas siekia nepriklausomo tikslo, nukrypdamas nuo užprogramuotų uždavinių. Nors praktikoje tai dar nepastebėta, Anthropic kruopščiai vertina šią potencialią riziką.

Automatinio režimo gynybos mechanizmai yra sureguliuoti taip, kad blokuotų veiksmus, kylančius iš bet kurios iš šių grėsmių, nepriklausomai nuo pagrindinės priežasties. Pavyzdžiai apima kredencialų paieškos prevenciją sistemingai ieškant API žetonų po autentifikavimo klaidos, konfidencialių scenarijų dalijimosi blokavimą per išorines paslaugas, tokias kaip GitHub Gist (duomenų nutekėjimas), ir saugumo patikros apėjimo prevenciją diegimo metu.

Detalūs leidimų sprendimai ir pritaikomos kontrolės priemonės

Automatinis režimas apdoroja leidimus per daugiapakopę sistemą, užtikrindamas, kad tik veiksmai su tikru neigiamu potencialu pasiektų griežčiausią patikrą:

  • 1 lygis: įmontuotas saugių įrankių leidimų sąrašas ir naudotojo nustatymai: Įrankiai, kurie nekeičia būsenos (pvz., failų skaitymas, paieška, kodo navigacija), yra leidžiami pagal numatytuosius nustatymus. Naudotojai taip pat gali konfigūruoti always-allow taisykles konkretiems įrankių šablonams. Pažymėtina, kad įjungus automatinį režimą, bendrieji leidimai savavališkam kodo vykdymui (pvz., apvalkalo prieiga su pakaitos simboliais arba scenarijų interpretatoriai) yra atmetami, siekiant užtikrinti, kad kritinės komandos būtų įvertintos klasifikatoriaus.
  • 2 lygis: failų operacijos projekte: Įprasti kodavimo veiksmai, tokie kaip failų rašymas ir redagavimas esamame projekto kataloge, yra leidžiami be klasifikatoriaus įsikišimo. Šie pakeitimai paprastai gali būti peržiūrimi naudojant versijų kontrolės sistemas.
  • 3 lygis: įrašų klasifikatorius: Visi kiti veiksmai, įskaitant apvalkalo komandas, tinklalapių paėmimus, išorinių įrankių integracijas ir failų operacijas už projekto katalogo ribų, nukreipiami į įrašų klasifikatorių galutiniam sprendimui.

Klasifikatoriaus sprendimų priėmimą reguliuoja fiksuotas šablonas ir pritaikomos vietos. Fiksuotas šablonas apibrėžia, kaip interpretuoti pavojingas komandas ir naudotojo leidimus, nustatydamas konservatyvų požiūrį, kai viskas, ką agentas inicijuoja pats, laikoma neautorizuota, kol nėra aiškiai leidžiama. Pritaikomos vietos leidžia naudotojams apibrėžti savo patikimą aplinką (domenus, debesų saugyklas, versijų kontrolės organizacijas) ir nurodyti papildomas blokavimo taisykles (pvz., užkertant kelią negrįžtamam duomenų praradimui ar nutekėjimui) ir išimtis. Šis lankstumas užtikrina, kad automatinis režimas gali prisitaikyti prie įvairių kūrimo aplinkų ir saugumo reikalavimų, padarydamas Claude Code dar galingesniu ir saugesniu partneriu šiuolaikinėje programinės įrangos kūrimo srityje.

Suteikdamas saugesnį, autonomiškesnį ir mažiau varginantį būdą valdyti AI agentų leidimus, Anthropic Claude Code automatinis režimas žymi reikšmingą pažangą kūrėjų įrankių ir AI saugumo evoliucijoje. Jis suteikia kūrėjams galimybę išnaudoti visą agentinės AI potencialą, išlaikant tvirtą kontrolę ir ramybę.

Dažniausiai užduodami klausimai

What problem does Claude Code auto mode primarily address for developers?
Claude Code auto mode is designed to combat 'approval fatigue,' a common issue where developers using AI agents like Claude Code become desensitized to frequent permission prompts. While these prompts are crucial for safety, constant clicking can lead to users inadvertently approving potentially dangerous actions. Auto mode delegates many of these decisions to intelligent, model-based classifiers, allowing for greater automation without compromising security. This approach significantly reduces the manual oversight burden while maintaining a robust defense against unintended agent behaviors, ensuring a smoother and safer development workflow.
How does Claude Code auto mode enhance security compared to previous permission mechanisms?
Previously, users faced a choice between tedious manual approvals, a restrictive sandbox, or the highly unsafe '--dangerously-skip-permissions' flag. Auto mode introduces a sophisticated middle ground using a two-layered defense system. It employs a server-side prompt-injection probe to scan tool outputs for malicious instructions and a transcript classifier to evaluate proposed actions before execution. This dual approach systematically identifies and blocks dangerous or unintended behaviors, providing a much higher level of AI security and proactive protection against issues like overeager agents or honest mistakes, far surpassing the simplistic previous options.
What are the two main layers of defense implemented within Claude Code auto mode?
Claude Code auto mode operates with two primary defense layers. The first is an **input layer** featuring a server-side prompt-injection probe. This probe scans all tool outputs—such as file reads, web fetches, or shell outputs—before they enter the agent's context. If it detects potential attempts to hijack the agent's behavior, it adds a warning to the agent's context. The second is an **output layer** where a transcript classifier, powered by Sonnet 4.6, evaluates each proposed action against a set of decision criteria before execution. This classifier acts as an automated human approver, blocking actions deemed dangerous or misaligned with user intent, ensuring a robust and comprehensive safety net.
What types of agent misbehaviors is auto mode specifically designed to prevent?
Auto mode is engineered to mitigate four key types of agent misbehaviors: **Overeager behavior**, where the agent takes initiative beyond user intent (e.g., deleting a remote Git branch); **Honest mistakes**, where the agent misinterprets the scope or impact of an action (e.g., deleting a production resource thinking it's test-scoped); **Prompt injection**, where external instructions hijack the agent's task; and theoretically, **misaligned models** pursuing their own goals, though this is currently not observed. The system's defense mechanisms are tuned to block actions arising from any of these scenarios, significantly enhancing reliability and safety.
Can users customize the security policies within Claude Code auto mode?
Yes, Claude Code auto mode offers significant customization capabilities to tailor security policies to specific environments and user needs. While the core 'fixed template' for evaluation rules and user intent interpretation remains consistent, users can configure three 'customizable slots.' These include defining the 'environment'—trusted domains, cloud buckets, or source-control organizations—which helps the classifier identify exfiltration risks. Users can also add specific block rules and exceptions, allowing them to fine-tune what actions are permissible or prohibited based on their unique operational context and security requirements, making the system highly adaptable and powerful for diverse development scenarios.
How does auto mode prevent prompt injection attacks?
Prompt injection attacks are a critical concern for AI agents, and Claude Code auto mode tackles this with a dedicated server-side prompt-injection probe. This probe actively scans all external tool outputs, such as data read from files, fetched from the web, or generated by shell commands, *before* this information is passed to the agent's core context. If the probe detects content that appears to be an attempt to subtly or overtly hijack the agent's instructions, it injects a warning into the agent's context. This pre-emptive measure alerts the agent to treat the suspect content cautiously and re-anchor its behavior firmly on the user's original request, effectively neutralizing many injection attempts before they can cause harm or redirect the agent.
What happens when an action is flagged by the transcript classifier in auto mode?
When an action reaches the transcript classifier, it undergoes a two-stage evaluation process. First, a fast single-token filter quickly decides to 'yes' (block) or 'no' (allow). Most benign actions clear this first stage. However, if the first filter flags an action, a more rigorous second stage is triggered. In this stage, the classifier performs chain-of-thought reasoning to re-evaluate the same input. This detailed reasoning helps to reduce false positives by providing a deeper understanding of the action's intent and potential impact. If the action is ultimately deemed dangerous or misaligned with user intent, it is blocked, preventing unintended consequences and maintaining system integrity, even if the initial flag was a conservative 'err toward blocking' decision.
Why are broad interpreter escapes and blanket shell access rules disabled by default in auto mode?
In auto mode, default permissions that grant arbitrary code execution, such as blanket shell access or wildcarded script interpreters (e.g., `python`, `node`), are deliberately dropped. While many users might enable these for convenience in manual-approval mode, keeping them active in auto mode would bypass the critical security provided by the transcript classifier. These broad rules allow the AI agent to execute virtually any command without specific oversight. By disabling them, auto mode ensures that potentially damaging commands, which could cause significant harm, are forced to pass through the rigorous evaluation of the transcript classifier, thereby preventing the AI from performing unauthorized or destructive actions via these powerful interfaces, making the system significantly safer.

Būkite informuoti

Gaukite naujausias AI naujienas el. paštu.

Dalintis