Code Velocity
DI tyrimai

AI sklandumo indeksas: Žmogaus ir dirbtinio intelekto bendradarbiavimo įgūdžių matavimas

·7 min skaitymo·Anthropic·Originalus šaltinis
Dalintis
Grafika, iliustruojanti DI sklandumo ir žmogaus-DI bendradarbiavimo sąvoką su duomenų taškais.

Sklandumas pirmiausia: Anthropic DI indeksas kvalifikuotam bendradarbiavimui

Sparčiai integruojami DI įrankiai į kasdienę rutiną yra stulbinantys. Tačiau, kai DI tampa visur esančia jėga, iškyla kritinis klausimas: ar vartotojai tik pritaiko šiuos įrankius, ar ugdo reikiamus įgūdžius, kad galėtų juos efektyviai panaudoti? Anthropic, atsakingo DI kūrimo lyderė, siekia atsakyti į tai su savo novatoriškuoju DI sklandumo indeksu – nauja ataskaita, skirta matuoti ir stebėti žmogaus ir DI bendradarbiavimo įgūdžių raidą.

Ankstesnės Anthropic švietimo ataskaitos atskleidė, kaip universitetų studentai ir pedagogai naudoja pažangius modelius, tokius kaip Claude, įvairioms užduotims – nuo ataskaitų generavimo iki pamokų planavimo. Tačiau šie tyrimai pirmiausia sutelkė dėmesį į tai, vartotojai darė. DI sklandumo indeksas gilinasi toliau, tyrinėdamas, kaip gerai asmenys bendrauja su DI, pristatydamas sistemą, skirtą suprasti "sklandumą" su šia transformuojančia technologija.

DI sklandumo iššifravimas: 4D sistema

Norėdami kiekybiškai įvertinti DI sklandumą, Anthropic bendradarbiavo su profesoriais Rick Dakan ir Joseph Feller, siekdami sukurti 4D DI sklandumo sistemą. Ši išsami sistema nustato 24 specifines elgsenas, kurios iliustruoja saugų ir efektyvų žmogaus ir DI bendradarbiavimą. Šio pirminio tyrimo tikslais Anthropic sutelkė dėmesį į 11 elgsenų, tiesiogiai stebimų Claude.ai pokalbių sąsajoje. Likusios 13, kurios apima tokius kritinius aspektus, kaip sąžiningumas dėl DI vaidmens darbe ar DI sugeneruotų rezultatų pasekmių apsvarstymas, vyksta už pokalbių ribų ir bus vertinamos būsimuose kokybiniuose tyrimuose.

Naudodama privatumą išsaugančią analizės priemonę, tyrimų komanda kruopščiai ištyrė 9 830 daugiasluoksnių pokalbių Claude.ai platformoje per 7 dienų laikotarpį 2026 m. sausio mėnesį. Šis platus duomenų rinkinys suteikė tvirtą pagrindą 11 stebimų sklandumo elgsenų buvimui ar nebuvimui matuoti, o tai leido sukurti DI sklandumo indeksą. Indeksas pateikia dabartinių bendradarbiavimo modelių apžvalgą ir pagrindą jų evoliucijos stebėjimui, tobulėjant DI modeliams.

Iteracijos ir tobulinimo galia sąveikoje su DI

Viena iš įtikinamiausių DI sklandumo indekso išvadų yra stiprus ryšys tarp iteracijos ir tobulinimo bei beveik visų kitų DI sklandumo elgsenų. Tyrimas parodė, kad 85,7% pokalbių vartotojai rėmėsi ankstesniais mainais, kad patobulintų savo darbą, užuot tiesiog priėmę pradinį atsakymą. Šie iteraciniai pokalbiai parodė žymiai didesnį kitų sklandumo elgsenų dažnį, efektyviai padvigubindami meistriškumą, matytą greituose, abipusiuose pokalbiuose.

Iteracijos poveikis DI sklandumo elgsenoms

Elgsenos indikatoriusPokalbiai su iteracija ir tobulinimu (n=8,424)Pokalbiai be iteracijos ir tobulinimo (n=1,406)Padidėjimo koeficientas (iteraciniai vs. neiteraciniai)
Claude pagrindimo kvestionavimasAukštasŽemas5.6x
Trūkstamo konteksto nustatymasAukštasŽemas4x
Tikslo išaiškinimasAukštasVidutinis~2x
Formato nurodymasAukštasVidutinis~2x
Pavyzdžių pateikimasAukštasVidutinis~2x
Vidutinis papildomas sklandumo elgsenų skaičius2.671.332x

Lentelė: Iliustruoja sklandumo elgsenų dažnumo padidėjimą pokalbiuose su iteracija ir tobulinimu.

Šis „iteracijos ir tobulinimo efektas“ pabrėžia DI traktavimo kaip mąstymo partnerio, o ne tik užduočių vykdytojo, svarbą. Vartotojai, kurie aktyviai dalyvauja dialoge, prieštarauja ir tobulina savo užklausas, žymiai dažniau kritiškai įvertina DI rezultatus, kvestionuoja jos pagrindimą ir nustato trūkstamą kontekstą. Tai atitinka agentinių darbo eigų koncepciją, kurioje žmogaus priežiūra ir iteracinis grįžtamasis ryšys lemia geresnius rezultatus, kaip aptarta diskusijose apie tokias platformas kaip GitHub agentinės darbo eigos.

DI artefaktų kūrimo dviašmenis kalavijas

Nors iteracija didina bendrą sklandumą, ataskaita atskleidė niuansuotą modelį, kai vartotojai prašo DI sukurti artefaktus, tokius kaip kodas, dokumentai ar interaktyvūs įrankiai. Šie pokalbiai, sudarantys 12,3% mėginio, parodė, kad vartotojai tampa labiau direktyvūs, bet stebėtinai mažiau vertinantys.

Kurdami artefaktus, vartotojai dažniau išaiškindavo savo tikslus (+14,7 procentinio punkto), nurodydavo formatus (+14,5 pp) ir pateikdavo pavyzdžius (+13,4 pp). Tačiau šis padidėjęs direktyvumas nevirto didesniu įžvalgumu. Tiesą sakant, vartotojai gerokai rečiau nustatydavo trūkstamą kontekstą (-5,2 pp), tikrindavo faktus (-3,7 pp) ar kvestionuodavo modelio samprotavimus (-3,1 pp). Ši tendencija ypač kelia nerimą, atsižvelgiant į tai, kad sudėtingos užduotys, dažnai susijusios su artefaktų kūrimu, yra tos, kuriose DI modeliai, tokie kaip Claude Opus 4.6 ar net pažangūs modeliai, tokie kaip GPT-5 (jei jis būtų viešai prieinamas, nors nuoroda nukreipia į būsimą ar hipotetinę versiją), greičiausiai susidurs su sunkumais.

Šis reiškinys gali būti siejamas su nugludintais, funkcionaliai atrodančiais rezultatais, kuriuos dažnai generuoja DI, o tai gali įstumti vartotojus į klaidingą užbaigtumo jausmą. Nesvarbu, ar tai būtų vartotojo sąsajos kūrimas, ar teisinės analizės rengimas, gebėjimas kritiškai įvertinti DI rezultatus išlieka itin svarbus. Tobulėjant DI modeliams, nekritiško, atrodo, tobulų rezultatų priėmimo rizika didėja, todėl vertinimo įgūdžiai tampa vertingesni nei bet kada anksčiau.

Savo DI sklandumo ugdymas

Gera žinia yra ta, kad DI sklandumas, kaip ir bet kuris įgūdis, gali būti ugdomas. Remdamasi savo išvadomis, Anthropic siūlo praktinius patarimus vartotojams, siekiantiems pagerinti savo žmogaus ir DI bendradarbiavimą:

  1. Likimas pokalbyje: Priimkite pradinius DI atsakymus kaip atspirties tašką. Užduokite papildomus klausimus, abejokite prielaidomis ir iteratyviai tobulinkite savo užklausas. Šis aktyvus įsitraukimas yra stipriausias kitų sklandumo elgsenų prognozuotojas.
  2. Nugludintų rezultatų kvestionavimas: Kai DI modelis pateikia kažką, kas atrodo išsamu ir tikslu, sustokite ir pritaikykite kritinį mąstymą. Paklauskite: Ar tai tikrai tikslu? Ar kažko trūksta? Ar pagrindimas yra tvirtas? Neleiskite, kad vizualinis 'glazūra' nusvertų kritinį vertinimą.
  3. Bendradarbiavimo sąlygų nustatymas: Proaktyviai apibrėžkite, kaip norite, kad DI su jumis bendrautų. Aiškios instrukcijos, tokios kaip 'Prieštaraukite, jei mano prielaidos klaidingos', 'Išsamiai paaiškinkite savo samprotavimus' arba 'Pasakykite, kuo abejojate', gali iš esmės pakeisti dinamiką, skatinant skaidresnį ir tvirtesnį bendradarbiavimą.

DI įgūdžių ugdymo ateities pagrindas

Svarbu pripažinti šio pirminio tyrimo apribojimus. Mėginys, apimantis daugiasluoksnių Claude.ai vartotojus nuo 2026 m. pradžios, greičiausiai yra orientuotas į ankstyvuosius diegėjus, jau besijaučiančius patogiai su DI, o ne į platesnę populiaciją. Tyrimas taip pat sutelkia dėmesį tik į stebimas elgsenas pokalbių sąsajoje, paliekant už borto esmines etiško ir atsakingo naudojimo elgsenas, kurios vyksta išoriškai. Šios išlygos reiškia, kad DI sklandumo indeksas suteikia pagrindą šiai konkrečiai populiacijai ir yra atspirties taškas gilesniems, išilginiams tyrimams.

Nepaisant šių apribojimų, DI sklandumo indeksas žymi svarbų žingsnį supratimo ir efektyvaus žmogaus ir DI bendradarbiavimo skatinimo link. Kadangi DI įrankiai toliau vystosi, suteikiant vartotojams įgūdžių kritiškai, iteratyviai ir atsakingai bendrauti bus labai svarbu realizuojant visą šios technologijos potencialą ir mažinant jos riziką. Ši pirminė ataskaita paruošia pagrindą būsimiems tyrimams, žadėdama vadovauti tiek vartotojams, tiek kūrėjams kuriant sklandesnę ir naudingesnę DI varomą ateitį.

Dažniausiai užduodami klausimai

What is the Anthropic AI Fluency Index?
The Anthropic AI Fluency Index is a new metric developed by Anthropic to assess how well individuals are developing skills to effectively use AI tools. Moving beyond mere adoption, the index tracks 11 directly observable behaviors that represent safe and effective human-AI collaboration, based on the 4D AI Fluency Framework. It aims to provide a baseline measurement of user proficiency, helping to understand how these critical skills evolve as AI technology becomes more integrated into daily life. The initial study analyzed nearly 10,000 conversations on Claude.ai to identify key patterns in user interaction and skill development.
How is AI fluency measured by Anthropic?
AI fluency is measured by tracking the presence or absence of 11 specific behavioral indicators during user interactions with Claude on Claude.ai. These indicators are derived from the broader 4D AI Fluency Framework, which defines 24 behaviors of safe and effective human-AI collaboration. For the initial study, Anthropic utilized a privacy-preserving analysis tool to examine 9,830 multi-turn conversations over a 7-day period. Behaviors like 'iteration and refinement,' 'questioning reasoning,' and 'identifying missing context' were observed and classified as present or absent within each conversation, providing a quantitative baseline for AI proficiency.
What is the 'iteration and refinement effect' in AI fluency?
The 'iteration and refinement effect' refers to the strong correlation found between users who build on previous exchanges to refine their work with AI, and the display of other key AI fluency behaviors. Conversations exhibiting iteration and refinement—meaning users don't just accept the first AI response but actively engage in follow-up questions, pushbacks, and adjustments—showed significantly higher rates of other fluency indicators. For instance, these iterative conversations were 5.6 times more likely to involve users questioning Claude's reasoning and 4 times more likely to identify missing context, underscoring the importance of sustained, dynamic engagement for developing AI proficiency.
Why do users become less evaluative when creating artifacts with AI?
Anthropic's research found that when users engage AI to create artifacts such as code, documents, or interactive tools, they tend to become more directive but paradoxically less evaluative. This means users are more likely to clarify goals and provide examples, but less likely to question the model's reasoning, identify missing context, or check facts. Possible explanations include the polished appearance of AI-generated outputs, which might lead users to prematurely trust the results, or the nature of certain tasks where functional aesthetics might outweigh factual precision. Regardless, this pattern highlights a critical area for improvement in human-AI collaboration, emphasizing the need for continued critical assessment even with seemingly complete outputs.
How can individuals improve their AI fluency according to Anthropic?
Anthropic suggests three key areas for individuals to enhance their AI fluency. First, 'staying in the conversation' means treating initial AI responses as starting points, asking follow-up questions, and actively refining outputs. Second, 'questioning polished outputs' involves critically evaluating AI-generated artifacts for accuracy, completeness, and logical soundness, even if they appear perfect. Third, 'setting the terms of the collaboration' encourages users to explicitly instruct AI on how to interact, for example, by asking it to explain its reasoning or push back on assumptions. These practices aim to foster deeper engagement and critical thinking in human-AI interactions.
What are the limitations of the AI Fluency Index study?
The initial AI Fluency Index study has several important limitations. The sample is restricted to Claude.ai users engaging in multi-turn conversations during a single week in January 2026, which likely skews towards early adopters and may not represent the broader population. The study also only assesses 11 out of 24 behaviors from the 4D AI Fluency Framework, focusing solely on directly observable interactions within the chat interface, thus missing crucial ethical and responsible use behaviors that occur externally. Furthermore, the binary classification of behaviors might overlook nuanced demonstrations, and it cannot account for 'implicit behaviors' where users might mentally evaluate AI outputs without verbalizing their critical assessment in the chat.

Būkite informuoti

Gaukite naujausias AI naujienas el. paštu.

Dalintis