Code Velocity
Raziskave AI

Indeks tekočega AI: Merjenje veščin sodelovanja med človekom in AI

·7 min branja·Anthropic·Izvirni vir
Deli
Grafika, ki ponazarja koncept tekočega AI in sodelovanja med človekom in AI, s podatkovnimi točkami.

Tekočnost na prvem mestu: Anthropicov indeks AI za spretno sodelovanje

Hitra integracija orodij AI v vsakodnevne rutine je bila osupljiva. Vendar, ko AI postaja vseprisotna, se pojavlja ključno vprašanje: ali uporabniki zgolj sprejemajo ta orodja, ali pa razvijajo potrebne veščine za njihovo učinkovito izkoriščanje? Anthropic, vodilni v razvoju odgovorne AI, želi na to odgovoriti s svojim revolucionarnim Indeksom tekočega AI, novim poročilom, zasnovanim za merjenje in spremljanje razvoja veščin sodelovanja med človekom in AI.

Prejšnja izobraževalna poročila podjetja Anthropic so osvetlila, kako študenti in izobraževalci uporabljajo napredne modele, kot je Claude, za naloge, od generiranja poročil do načrtovanja učnih ur. Vendar so se te študije primarno osredotočale na kaj so uporabniki delali. Indeks tekočega AI se poglobi in raziskuje, kako dobro posamezniki sodelujejo z AI, uvaja okvir za razumevanje "tekočnosti" s to preoblikovalno tehnologijo.

Dekodiranje tekočnosti AI: Okvir 4D

Za kvantifikacijo tekočnosti AI je Anthropic sodeloval s profesorjema Rickom Dakanom in Josephom Fellerjem pri razvoju Okvira tekočega AI 4D. Ta celovit okvir identificira 24 specifičnih vedenj, ki ponazarjajo varno in učinkovito sodelovanje med človekom in AI. Za namen te začetne študije se je Anthropic osredotočil na 11 vedenj, ki so neposredno opazljiva znotraj klepetalnega vmesnika Claude.ai. Preostalih 13, ki vključujejo kritične aspekte, kot je iskrenost glede vloge AI pri delu ali upoštevanje posledic izhodov, ustvarjenih z AI, se pojavlja zunaj klepeta in bo ocenjenih v prihodnjih kvalitativnih raziskavah.

Z uporabo orodja za analizo, ki ohranja zasebnost, je raziskovalna ekipa natančno preučila 9.830 večkratnih pogovorov na Claude.ai v 7-dnevnem obdobju januarja 2026. Ta obsežen nabor podatkov je zagotovil zanesljivo izhodišče za merjenje prisotnosti ali odsotnosti 11 opazljivih vedenj tekočnosti, kar je privedlo do ustvarjanja Indeksa tekočega AI. Indeks ponuja posnetek trenutnih vzorcev sodelovanja in osnovo za spremljanje njihovega razvoja, ko se modeli AI izboljšujejo.

Moč ponavljanja in izboljšanja v interakciji z AI

Ena najpomembnejših ugotovitev Indeksa tekočega AI je močna korelacija med ponavljanjem in izboljšanjem ter skoraj vsemi drugimi vedenji tekočega AI. Študija je pokazala, da je 85,7 % pogovorov vključevalo uporabnike, ki so gradili na prejšnjih izmenjavah, da bi izboljšali svoje delo, namesto da bi preprosto sprejeli začetni odziv. Ti ponavljajoči se pogovori so pokazali bistveno višje stopnje drugih vedenj tekočnosti, s čimer so dejansko podvojili znanje, opaženo pri hitrih, povratnih klepetih.

Vpliv ponavljanja na vedenja tekočnosti AI

Vedenjski kazalnikPogovori s ponavljanjem in izboljšanjem (n=8,424)Pogovori brez ponavljanja in izboljšanja (n=1,406)Faktor povečanja (Ponavljajoči vs. Neponavljajoči)
Dovpraševanje o Claudejevi utemeljitviVisokoNizko5,6x
Prepoznavanje manjkajočega kontekstaVisokoNizko4x
Pojasnjevanje ciljaVisokoSrednje~2x
Določanje formataVisokoSrednje~2x
Navajanje primerovVisokoSrednje~2x
Povprečno dodatna vedenja tekočnosti2,671,332x

Tabela: Ponazarja povečano pogostost vedenj tekočnosti v pogovorih s ponavljanjem in izboljšanjem.

Ta 'učinek ponavljanja in izboljšanja' poudarja pomen obravnavanja AI kot miselnega partnerja in ne zgolj delegata nalog. Uporabniki, ki se aktivno vključijo v dialog, oporekajo in izboljšujejo svoje poizvedbe, bistveno pogosteje kritično ocenjujejo izhode AI, dvomijo v njeno utemeljitev in prepoznavajo ključni manjkajoči kontekst. To se ujema s konceptom agencijskih delovnih tokov, kjer človeški nadzor in ponavljajoče se povratne informacije vodijo do boljših rezultatov, kot je raziskano v razpravah o platformah, kot so Agencijski delovni tokovi GitHub.

Dvojni rob ustvarjanja AI artefaktov

Medtem ko ponavljanje povečuje splošno tekočnost, je poročilo razkrilo niansiran vzorec, ko uporabniki AI spodbujajo k ustvarjanju artefaktov, kot so koda, dokumenti ali interaktivna orodja. Ti pogovori, ki predstavljajo 12,3 % vzorca, so pokazali, da uporabniki postanejo bolj direktivni, a presenetljivo manj kritični.

Pri ustvarjanju artefaktov so uporabniki pogosteje pojasnjevali svoje cilje (+14,7 odstotnih točk), določali formate (+14,5 ot) in navajali primere (+13,4 ot). Vendar se ta povečana direktivnost ni prevedla v večjo razsodnost. Dejansko so uporabniki bili bistveno manj verjetno, da bi prepoznali manjkajoči kontekst (-5,2 ot), preverili dejstva (-3,7 ot) ali dvomili v utemeljitev modela (-3,1 ot). Ta trend je še posebej zaskrbljujoč glede na to, da se pri kompleksnih nalogah, pogosto povezanih z ustvarjanjem artefaktov, modeli AI, kot je Claude Opus 4.6 ali celo napredni modeli, kot je GPT-5 (če bi bil v naravi, čeprav povezava kaže na prihodnjo ali hipotetično različico), najverjetneje soočajo s težavami.

Ta pojav je mogoče pripisati dodelanim, funkcionalnim izhodom, ki jih AI pogosto generira, kar lahko uporabnike uspava v lažen občutek dokončanosti. Ne glede na to, ali gre za oblikovanje uporabniškega vmesnika ali pripravo pravne analize, sposobnost kritičnega pregleda izhodov AI ostaja najpomembnejša. Ko modeli AI postajajo vse bolj sofisticirani, se povečuje tveganje za nekritično sprejemanje navidezno popolnih izhodov, zaradi česar so ocenjevalne veščine dragocenejše kot kdaj koli prej.

Gojenje lastne tekočnosti AI

Dobra novica je, da se tekočnost AI, kot vsaka veščina, lahko razvije. Na podlagi svojih ugotovitev Anthropic ponuja praktične nasvete za uporabnike, ki želijo izboljšati svoje sodelovanje med človekom in AI:

  1. Ostati v pogovoru: Sprejmite začetne odzive AI kot izhodišče. Postavljajte nadaljnja vprašanja, oporekajte predpostavkam in iterativno izboljšujte svoje zahteve. To aktivno sodelovanje je najmočnejši napovednik drugih vedenj tekočnosti.
  2. Dovpraševanje o dodelanih izhodih: Ko model AI ustvari nekaj, kar izgleda popolno in natančno, se ustavite in uporabite kritično razmišljanje. Vprašajte: Ali je to resnično natančno? Ali kaj manjka? Ali utemeljitev drži? Ne dovolite, da vizualna dodelanost preglasi kritično vrednotenje.
  3. Določanje pogojev sodelovanja: Proaktivno določite, kako želite, da AI sodeluje z vami. Jasna navodila, kot so 'Opozori me, če so moje predpostavke napačne', 'Pokaži mi svojo utemeljitev' ali 'Povej mi, v kaj nisi prepričan', lahko bistveno spremenijo dinamiko in spodbujajo bolj transparentno in robustno sodelovanje.

Izhodišče za prihodnji razvoj veščin AI

Pomembno je priznati omejitve te začetne študije. Vzorec, ki zajema uporabnike Claude.ai z večkratnimi pogovori iz začetka leta 2026, se verjetno nagiba k zgodnjim posvojiteljem, ki so že seznanjeni z AI, ne pa k širši populaciji. Študija se osredotoča izključno na opazljiva vedenja znotraj klepetalnega vmesnika, izpušča pa ključna etična in odgovorna vedenja, ki se pojavljajo zunaj. Te opombe pomenijo, da Indeks tekočega AI zagotavlja izhodišče za to specifično populacijo in izhodiščno točko za globlje, longitudinalne raziskave.

Kljub tem omejitvam, Indeks tekočega AI predstavlja pomemben korak k razumevanju in spodbujanju učinkovitega sodelovanja med človekom in AI. Ker se orodja AI še naprej razvijajo, bo opolnomočenje uporabnikov z veščinami kritičnega, iterativnega in odgovornega sodelovanja ključno za uresničitev celotnega potenciala te tehnologije, hkrati pa bo zmanjšalo njena tveganja. To začetno poročilo postavlja temelje za prihodnje raziskave, obetavno vodilo tako uporabnikom kot razvijalcem pri izgradnji bolj tekoče in koristne prihodnosti, ki jo poganja AI.

Pogosta vprašanja

What is the Anthropic AI Fluency Index?
The Anthropic AI Fluency Index is a new metric developed by Anthropic to assess how well individuals are developing skills to effectively use AI tools. Moving beyond mere adoption, the index tracks 11 directly observable behaviors that represent safe and effective human-AI collaboration, based on the 4D AI Fluency Framework. It aims to provide a baseline measurement of user proficiency, helping to understand how these critical skills evolve as AI technology becomes more integrated into daily life. The initial study analyzed nearly 10,000 conversations on Claude.ai to identify key patterns in user interaction and skill development.
How is AI fluency measured by Anthropic?
AI fluency is measured by tracking the presence or absence of 11 specific behavioral indicators during user interactions with Claude on Claude.ai. These indicators are derived from the broader 4D AI Fluency Framework, which defines 24 behaviors of safe and effective human-AI collaboration. For the initial study, Anthropic utilized a privacy-preserving analysis tool to examine 9,830 multi-turn conversations over a 7-day period. Behaviors like 'iteration and refinement,' 'questioning reasoning,' and 'identifying missing context' were observed and classified as present or absent within each conversation, providing a quantitative baseline for AI proficiency.
What is the 'iteration and refinement effect' in AI fluency?
The 'iteration and refinement effect' refers to the strong correlation found between users who build on previous exchanges to refine their work with AI, and the display of other key AI fluency behaviors. Conversations exhibiting iteration and refinement—meaning users don't just accept the first AI response but actively engage in follow-up questions, pushbacks, and adjustments—showed significantly higher rates of other fluency indicators. For instance, these iterative conversations were 5.6 times more likely to involve users questioning Claude's reasoning and 4 times more likely to identify missing context, underscoring the importance of sustained, dynamic engagement for developing AI proficiency.
Why do users become less evaluative when creating artifacts with AI?
Anthropic's research found that when users engage AI to create artifacts such as code, documents, or interactive tools, they tend to become more directive but paradoxically less evaluative. This means users are more likely to clarify goals and provide examples, but less likely to question the model's reasoning, identify missing context, or check facts. Possible explanations include the polished appearance of AI-generated outputs, which might lead users to prematurely trust the results, or the nature of certain tasks where functional aesthetics might outweigh factual precision. Regardless, this pattern highlights a critical area for improvement in human-AI collaboration, emphasizing the need for continued critical assessment even with seemingly complete outputs.
How can individuals improve their AI fluency according to Anthropic?
Anthropic suggests three key areas for individuals to enhance their AI fluency. First, 'staying in the conversation' means treating initial AI responses as starting points, asking follow-up questions, and actively refining outputs. Second, 'questioning polished outputs' involves critically evaluating AI-generated artifacts for accuracy, completeness, and logical soundness, even if they appear perfect. Third, 'setting the terms of the collaboration' encourages users to explicitly instruct AI on how to interact, for example, by asking it to explain its reasoning or push back on assumptions. These practices aim to foster deeper engagement and critical thinking in human-AI interactions.
What are the limitations of the AI Fluency Index study?
The initial AI Fluency Index study has several important limitations. The sample is restricted to Claude.ai users engaging in multi-turn conversations during a single week in January 2026, which likely skews towards early adopters and may not represent the broader population. The study also only assesses 11 out of 24 behaviors from the 4D AI Fluency Framework, focusing solely on directly observable interactions within the chat interface, thus missing crucial ethical and responsible use behaviors that occur externally. Furthermore, the binary classification of behaviors might overlook nuanced demonstrations, and it cannot account for 'implicit behaviors' where users might mentally evaluate AI outputs without verbalizing their critical assessment in the chat.

Bodite na tekočem

Prejemajte najnovejše AI novice po e-pošti.

Deli