Code Velocity
AI კვლევა

AI გამართულობის ინდექსი: ადამიანისა და AI-ის თანამშრომლობის უნარების გაზომვა

·7 წუთი კითხვა·Anthropic·ორიგინალი წყარო
გაზიარება
გრაფიკა, რომელიც ასახავს AI გამართულობისა და ადამიან-AI თანამშრომლობის კონცეფციას, მონაცემთა წერტილებით.

გამართულობა უპირველეს ყოვლისა: Anthropic-ის AI ინდექსი გამოცდილი თანამშრომლობისთვის

AI ინსტრუმენტების სწრაფი ინტეგრაცია ყოველდღიურ რუტინაში, უბრალოდ, საოცარია. თუმცა, რადგან AI ხდება ყველგანმავალი, ჩნდება კრიტიკული კითხვა: მომხმარებლები უბრალოდ ითვისებენ ამ ინსტრუმენტებს, თუ ავითარებენ აუცილებელ უნარებს მათ ეფექტურად გამოსაყენებლად? Anthropic, პასუხისმგებლიანი AI განვითარების ლიდერი, მიზნად ისახავს ამაზე პასუხის გაცემას მათი ინოვაციური AI გამართულობის ინდექსით, ახალი ანგარიშით, რომელიც შექმნილია ადამიანისა და AI-ის თანამშრომლობის უნარების გასაზომად და თვალყურის სადევნებლად.

Anthropic-ის წინა საგანმანათლებლო ანგარიშები ნათელს ჰფენს, თუ როგორ იყენებენ უნივერსიტეტის სტუდენტები და პედაგოგები მოწინავე მოდელებს, როგორიცაა Claude, დავალებებისთვის, დაწყებული ანგარიშების გენერირებიდან გაკვეთილის დაგეგმვამდე. თუმცა, ეს კვლევები ძირითადად ფოკუსირებული იყო იმაზე, თუ რას აკეთებდნენ მომხმარებლები. AI გამართულობის ინდექსი უფრო ღრმად იკვლევს, თუ რამდენად კარგად ურთიერთობენ ინდივიდები AI-სთან, შემოაქვს ჩარჩო ამ ტრანსფორმაციული ტექნოლოგიის „გამართულობის“ გასაგებად.

AI გამართულობის გაშიფვრა: 4D ჩარჩო

AI გამართულობის რაოდენობრივი შეფასებისთვის, Anthropic-მა პროფესორებთან Rick Dakan-თან და Joseph Feller-თან თანამშრომლობით შეიმუშავა 4D AI გამართულობის ჩარჩო. ეს ყოვლისმომცველი ჩარჩო განსაზღვრავს 24 სპეციფიკურ ქცევას, რომლებიც წარმოადგენს უსაფრთხო და ეფექტურ ადამიანისა და AI-ის თანამშრომლობას. ამ საწყისი კვლევის მიზნებისთვის, Anthropic-ი ფოკუსირებული იყო 11 ქცევაზე, რომლებიც პირდაპირ დაკვირვებადია Claude.ai-ის ჩატის ინტერფეისში. დანარჩენი 13, რომელიც მოიცავს კრიტიკულ ასპექტებს, როგორიცაა AI-ის როლის შესახებ სიმართლე სამსახურში ან AI-ით გენერირებული გამომავალი მასალების შედეგების გათვალისწინება, ჩატის გარეთ ხდება და შეფასდება სამომავლო თვისებრივ კვლევებში.

კონფიდენციალურობის დამცავი ანალიზის ინსტრუმენტის გამოყენებით, კვლევის ჯგუფმა ზედმიწევნით შეისწავლა 9,830 მრავალჯერადი საუბარი Claude.ai-ზე 2026 წლის იანვრის 7 დღის განმავლობაში. ამ ვრცელმა მონაცემთა ნაკრებმა უზრუნველყო მყარი საბაზისო მონაცემები 11 დაკვირვებადი გამართულობის ქცევის არსებობის ან არარსებობის გასაზომად, რამაც განაპირობა AI გამართულობის ინდექსის შექმნა. ინდექსი გვთავაზობს მიმდინარე თანამშრომლობის ნიმუშების სურათს და საფუძველს მათი ევოლუციის თვალყურის დევნებისთვის, რადგან AI მოდელები ვითარდება.

განმეორებისა და დახვეწის ძალა AI ინტერაქციაში

AI გამართულობის ინდექსის ერთ-ერთი ყველაზე დამაჯერებელი აღმოჩენა არის ძლიერი კორელაცია განმეორებასა და დახვეწასა და AI გამართულობის თითქმის ყველა სხვა ქცევას შორის. კვლევამ აჩვენა, რომ საუბრების 85.7% მოიცავდა მომხმარებლებს, რომლებიც წინა გაცვლებს ეყრდნობოდნენ მუშაობის დასახვეწად, ნაცვლად იმისა, რომ უბრალოდ მიეღოთ საწყისი პასუხი. ამ განმეორებითმა საუბრებმა აჩვენა გამართულობის სხვა ქცევების მნიშვნელოვნად მაღალი მაჩვენებლები, რაც ეფექტურად აორმაგებს პროფესიონალიზმს, რაც შეინიშნება სწრაფ, უკუკავშირიან ჩეთებში.

განმეორების გავლენა AI გამართულობის ქცევებზე

ქცევითი ინდიკატორისაუბრები განმეორებითა და დახვეწით (n=8,424)საუბრები განმეორებისა და დახვეწის გარეშე (n=1,406)ზრდის ფაქტორი (განმეორებითი vs. არაგანმეორებითი)
Claude-ის არგუმენტაციის კითხვის ნიშნის ქვეშ დაყენებამაღალიდაბალი5.6x
დაკარგული კონტექსტის იდენტიფიცირებამაღალიდაბალი4x
მიზნის გარკვევამაღალისაშუალო~2x
ფორმატის დაკონკრეტებამაღალისაშუალო~2x
მაგალითების მოწოდებამაღალისაშუალო~2x
საშუალო დამატებითი გამართულობის ქცევები2.671.332x

ცხრილი: გამართულობის ქცევების გაზრდილი გავრცელების ილუსტრაცია განმეორებითი და დახვეწილი საუბრებისას.

ეს „განმეორებისა და დახვეწის ეფექტი“ ხაზს უსვამს AI-ის როგორც პარტნიორის მოპყრობის მნიშვნელობას, ვიდრე უბრალო დავალების შემსრულებლის. მომხმარებლები, რომლებიც აქტიურად ერთვებიან დიალოგში, ეწინააღმდეგებიან და აზუსტებენ თავიანთ მოთხოვნებს, მნიშვნელოვნად უფრო მეტად აფასებენ AI-ის გამომავალს კრიტიკულად, კითხვის ნიშნის ქვეშ აყენებენ მის არგუმენტაციას და ადგენენ კრიტიკულად დაკარგულ კონტექსტს. ეს შეესაბამება აგენტური სამუშაო პროცესების კონცეფციას, სადაც ადამიანის ზედამხედველობა და განმეორებითი უკუკავშირი უკეთეს შედეგებს იწვევს, როგორც ეს განხილულია GitHub-ის აგენტური სამუშაო პროცესების შესახებ დისკუსიებში.

AI არტეფაქტების შექმნის ორლესული ხმალი

მიუხედავად იმისა, რომ განმეორება ზრდის საერთო გამართულობას, ანგარიშმა გამოავლინა ნიუანსური ნიმუში, როდესაც მომხმარებლები AI-ს ავალებენ არტეფაქტების წარმოებას, როგორიცაა კოდი, დოკუმენტები ან ინტერაქტიული ინსტრუმენტები. ამ საუბრებმა, რომლებიც ნიმუშის 12.3%-ს შეადგენდა, აჩვენა, რომ მომხმარებლები ხდებოდნენ უფრო მიმართულები, მაგრამ საოცრად ნაკლებად შეფასებითები.

არტეფაქტების შექმნისას, მომხმარებლები უფრო ხშირად აზუსტებდნენ მიზნებს (+14.7 პროცენტული პუნქტი), აკონკრეტებდნენ ფორმატებს (+14.5pp) და აწვდიდნენ მაგალითებს (+13.4pp). თუმცა, ამ გაზრდილმა მიმართულებამ არ გამოიწვია უფრო დიდი გამჭრიახობა. ფაქტობრივად, მომხმარებლები შესამჩნევად ნაკლებად ხშირად ადგენდნენ დაკარგულ კონტექსტს (-5.2pp), ამოწმებდნენ ფაქტებს (-3.7pp) ან კითხვის ნიშნის ქვეშ აყენებდნენ მოდელის არგუმენტაციას (-3.1pp). ეს ტენდენცია განსაკუთრებით შემაშფოთებელია იმის გათვალისწინებით, რომ კომპლექსური ამოცანები, ხშირად დაკავშირებული არტეფაქტების შექმნასთან, არის ის შემთხვევები, სადაც AI მოდელები, როგორიცაა Claude Opus 4.6 ან თუნდაც მოწინავე მოდელები, როგორიცაა GPT-5 (თუ ის საჯაროდ ხელმისაწვდომი იქნებოდა, თუმცა ბმული მიუთითებს მომავალ ან ჰიპოთეტურ ვერსიაზე) ყველაზე მეტად აწყდებიან სირთულეებს.

ეს ფენომენი შეიძლება მიეწეროს AI-ის მიერ ხშირად გენერირებულ გაპრიალებულ, ფუნქციურ გამომავალს, რამაც შეიძლება მომხმარებლებს ცრუ სრულყოფილების შეგრძნება შეუქმნას. იქნება ეს UI-ის დიზაინი თუ იურიდიული ანალიზის პროექტირება, AI-ის გამომავალი მასალის კრიტიკულად შემოწმების უნარი კვლავ უმთავრესია. რადგან AI მოდელები უფრო დახვეწილი ხდება, ერთი შეხედვით სრულყოფილი გამომავალი მასალების არაკრიტიკული მიღების რისკი იზრდება, რაც შეფასების უნარებს უფრო ღირებულს ხდის, ვიდრე ოდესმე.

საკუთარი AI გამართულობის განვითარება

კარგი ამბავი ის არის, რომ AI გამართულობა, ისევე როგორც ნებისმიერი უნარი, შეიძლება განვითარდეს. თავიანთი აღმოჩენების საფუძველზე, Anthropic მომხმარებლებს პრაქტიკულ რჩევებს სთავაზობს ადამიანისა და AI-ის თანამშრომლობის გასაუმჯობესებლად:

  1. საუბარში დარჩენა: მიიღეთ AI-ის საწყისი პასუხები, როგორც საწყისი წერტილი. დასვით შემდგომი კითხვები, გააპროტესტეთ ვარაუდები და განმეორებით დახვეწეთ თქვენი მოთხოვნები. ეს აქტიური ჩართულობა არის სხვა გამართულობის ქცევების უძლიერესი პროგნოზირებელი.
  2. გაპრიალებული გამომავალი მასალების კითხვის ნიშნის ქვეშ დაყენება: როდესაც AI მოდელი აწარმოებს რაღაცას, რაც გამოიყურება სრულად და ზუსტად, შეაჩერეთ და გამოიყენეთ კრიტიკული აზროვნება. იკითხეთ: ეს მართლაც ზუსტია? რამე ხომ არ აკლია? ლოგიკა გამართულია? ნუ მისცემთ ვიზუალურ გაპრიალებას კრიტიკული შეფასების უპირატესობას.
  3. თანამშრომლობის პირობების დადგენა: პროაქტიულად განსაზღვრეთ, თუ როგორ გსურთ, რომ AI თქვენთან ითანამშრომლოს. მკაფიო მითითებები, როგორიცაა „გააპროტესტე, თუ ჩემი ვარაუდები მცდარია“, „ამიხსენი შენი არგუმენტაცია“ ან „მითხარი, რაში არ ხარ დარწმუნებული“, შეუძლია ფუნდამენტურად შეცვალოს დინამიკა, რაც ხელს უწყობს უფრო გამჭვირვალე და მტკიცე თანამშრომლობას.

საბაზისო მონაცემები AI უნარების მომავალი განვითარებისთვის

მნიშვნელოვანია ამ საწყისი კვლევის შეზღუდვების აღიარება. ნიმუში, რომელიც მოიცავს Claude.ai-ის მრავალჯერადი საუბრის მომხმარებლებს 2026 წლის დასაწყისიდან, სავარაუდოდ მიმართულია ადრეული მიმღებებისკენ, რომლებიც უკვე კომფორტულად გრძნობენ თავს AI-სთან, და არა უფრო ფართო მოსახლეობისკენ. კვლევა ასევე ფოკუსირებულია მხოლოდ ჩატის ინტერფეისში დაკვირვებად ქცევებზე, რითაც გამოტოვებულია გადამწყვეტი ეთიკური და პასუხისმგებლიანი გამოყენების ქცევები, რომლებიც ხდება გარედან. ეს გაფრთხილებები ნიშნავს, რომ AI გამართულობის ინდექსი უზრუნველყოფს საბაზისო მონაცემებს ამ კონკრეტული პოპულაციისთვის და საწყის წერტილს უფრო ღრმა, გრძელვადიანი კვლევისთვის.

ამ შეზღუდვების მიუხედავად, AI გამართულობის ინდექსი მნიშვნელოვანი ნაბიჯია ეფექტური ადამიანისა და AI-ის თანამშრომლობის გაგებისა და ხელშეწყობისკენ. რადგან AI ინსტრუმენტები განაგრძობს განვითარებას, მომხმარებლებისთვის კრიტიკული, განმეორებითი და პასუხისმგებლიანი ჩართულობის უნარებით აღჭურვა გადამწყვეტი იქნება ამ ტექნოლოგიის სრული პოტენციალის რეალიზაციისთვის, მისი რისკების შემცირებისას. ეს საწყისი ანგარიში საფუძველს უყრის სამომავლო კვლევებს, გვპირდება როგორც მომხმარებლების, ისე დეველოპერების ხელმძღვანელობას უფრო გამართული და სასარგებლო AI-ზე დაფუძნებული მომავლის შექმნაში.

ორიგინალი წყარო

https://www.anthropic.com/research/AI-fluency-index

ხშირად დასმული კითხვები

What is the Anthropic AI Fluency Index?
The Anthropic AI Fluency Index is a new metric developed by Anthropic to assess how well individuals are developing skills to effectively use AI tools. Moving beyond mere adoption, the index tracks 11 directly observable behaviors that represent safe and effective human-AI collaboration, based on the 4D AI Fluency Framework. It aims to provide a baseline measurement of user proficiency, helping to understand how these critical skills evolve as AI technology becomes more integrated into daily life. The initial study analyzed nearly 10,000 conversations on Claude.ai to identify key patterns in user interaction and skill development.
How is AI fluency measured by Anthropic?
AI fluency is measured by tracking the presence or absence of 11 specific behavioral indicators during user interactions with Claude on Claude.ai. These indicators are derived from the broader 4D AI Fluency Framework, which defines 24 behaviors of safe and effective human-AI collaboration. For the initial study, Anthropic utilized a privacy-preserving analysis tool to examine 9,830 multi-turn conversations over a 7-day period. Behaviors like 'iteration and refinement,' 'questioning reasoning,' and 'identifying missing context' were observed and classified as present or absent within each conversation, providing a quantitative baseline for AI proficiency.
What is the 'iteration and refinement effect' in AI fluency?
The 'iteration and refinement effect' refers to the strong correlation found between users who build on previous exchanges to refine their work with AI, and the display of other key AI fluency behaviors. Conversations exhibiting iteration and refinement—meaning users don't just accept the first AI response but actively engage in follow-up questions, pushbacks, and adjustments—showed significantly higher rates of other fluency indicators. For instance, these iterative conversations were 5.6 times more likely to involve users questioning Claude's reasoning and 4 times more likely to identify missing context, underscoring the importance of sustained, dynamic engagement for developing AI proficiency.
Why do users become less evaluative when creating artifacts with AI?
Anthropic's research found that when users engage AI to create artifacts such as code, documents, or interactive tools, they tend to become more directive but paradoxically less evaluative. This means users are more likely to clarify goals and provide examples, but less likely to question the model's reasoning, identify missing context, or check facts. Possible explanations include the polished appearance of AI-generated outputs, which might lead users to prematurely trust the results, or the nature of certain tasks where functional aesthetics might outweigh factual precision. Regardless, this pattern highlights a critical area for improvement in human-AI collaboration, emphasizing the need for continued critical assessment even with seemingly complete outputs.
How can individuals improve their AI fluency according to Anthropic?
Anthropic suggests three key areas for individuals to enhance their AI fluency. First, 'staying in the conversation' means treating initial AI responses as starting points, asking follow-up questions, and actively refining outputs. Second, 'questioning polished outputs' involves critically evaluating AI-generated artifacts for accuracy, completeness, and logical soundness, even if they appear perfect. Third, 'setting the terms of the collaboration' encourages users to explicitly instruct AI on how to interact, for example, by asking it to explain its reasoning or push back on assumptions. These practices aim to foster deeper engagement and critical thinking in human-AI interactions.
What are the limitations of the AI Fluency Index study?
The initial AI Fluency Index study has several important limitations. The sample is restricted to Claude.ai users engaging in multi-turn conversations during a single week in January 2026, which likely skews towards early adopters and may not represent the broader population. The study also only assesses 11 out of 24 behaviors from the 4D AI Fluency Framework, focusing solely on directly observable interactions within the chat interface, thus missing crucial ethical and responsible use behaviors that occur externally. Furthermore, the binary classification of behaviors might overlook nuanced demonstrations, and it cannot account for 'implicit behaviors' where users might mentally evaluate AI outputs without verbalizing their critical assessment in the chat.

იყავით ინფორმირებული

მიიღეთ უახლესი AI სიახლეები ელფოსტაზე.

გაზიარება