Code Velocity
Gervigreindarannsóknir

Gervigreindarfærniviðmið: Að meta færni í samvinnu manna og gervigreindar

·7 mín lestur·Anthropic·Upprunaleg heimild
Deila
Mynd sem sýnir hugmyndina um gervigreindarfærni og samvinnu manna og gervigreindar, með gagnapunktum.

Færni fyrst: Gervigreindarvísitala Anthropic fyrir faglega samvinnu

Hraðri samþætting gervigreindarverkfæra í daglegt líf hefur verið hreint út sagt ótrúleg. En eftir því sem gervigreind verður alls staðar nálæg, kemur upp mikilvæg spurning: eru notendur bara að taka upp þessi verkfæri, eða eru þeir að þróa nauðsynlega færni til að nýta þau á áhrifaríkan hátt? Anthropic, sem er leiðandi í ábyrgri þróun gervigreindar, ætlar að svara þessu með byltingarkenndu Gervigreindarfærniviðmiði sínu, nýrri skýrslu sem er hönnuð til að mæla og fylgjast með þróun færni í samvinnu manna og gervigreindar.

Fyrri menntunarskýrslur Anthropic varpa ljósi á hvernig háskólanemar og kennarar nota háþróuð líkön eins og Claude fyrir verkefni allt frá skýrslugerð til kennsluáætlana. Hins vegar einblíndu þessar rannsóknir fyrst og fremst á hvað notendur voru að gera. Gervigreindarfærniviðmiðið kafar dýpra og kannar hversu vel einstaklingar eru að eiga samskipti við gervigreind, og kynnir ramma til að skilja „færni“ með þessari umbreytingartækni.

Afkóðun gervigreindarfærni: 4D ramminn

Til að mæla gervigreindarfærni vann Anthropic með prófessorum Rick Dakan og Joseph Feller að því að þróa 4D ramma gervigreindarfærni. Þessi yfirgripsmikli rammi skilgreinir 24 sérstakar hegðanir sem dæmi um örugga og árangursríka samvinnu manna og gervigreindar. Í tilgangi þessarar upphaflegu rannsóknar einbeitti Anthropic sér að 11 hegðunum sem eru beint athuganlegar innan Claude.ai spjallviðmótsins. Hinar 13, sem innihalda mikilvæga þætti eins og að vera heiðarlegur varðandi hlutverk gervigreindar í vinnu eða íhuga afleiðingar afurða gervigreindar, eiga sér stað utan spjallsins og verða metnar í framtíðar eigindlegum rannsóknum.

Með því að nota persónuverndarvænt greiningartól rannsakaði rannsóknarteymið vandlega 9.830 samtöl í mörgum umferðum á Claude.ai á 7 daga tímabili í janúar 2026. Þessi umfangsmikla gagnasafn veitti traustan grunn til að mæla nærveru eða fjarveru 11 athuganlegra færnihegðana, sem leiddi til sköpunar Gervigreindarfærniviðmiðsins. Viðmiðið veitir skyndimynd af núverandi samvinnunúmstrum og grunn fyrir að fylgjast með þróun þeirra eftir því sem gervigreindarlíkön þróast.

Kraftur endurtekningar og betrumbóta í samskiptum við gervigreind

Ein sannfærandi niðurstaða úr Gervigreindarfærniviðmiðinu er sterk fylgni milli endurtekningar og betrumbóta og nærri allra annarra hegðana gervigreindarfærni. Rannsóknin leiddi í ljós að 85,7% samtala innihéldu notendur sem byggðu á fyrri samskiptum til að betrumbæta vinnu sína, frekar en að samþykkja einfaldlega upphafssvarið. Þessi endurteknu samtöl sýndu verulega hærri tíðni annarra færnihegðana, sem tvöfaldaði í raun þá færni sem sást í hröðum, fram- og tilbaka spjöllum.

Áhrif endurtekningar á hegðun gervigreindarfærni

HegðunarvísirSamtöl með endurtekningu og betrumbótum (n=8.424)Samtöl án endurtekningar og betrumbóta (n=1.406)Aukningarstuðull (endurtekin vs. óendurtekin)
Að draga rökstuðning Claude í efaMikiðLítið5,6x
Að bera kennsl á vantar samhengiMikiðLítið4x
Að skýra markmiðMikiðMeðal~2x
Að tilgreina sniðMikiðMeðal~2x
Að veita dæmiMikiðMeðal~2x
Meðaltal viðbótar færnihegðana2,671,332x

Tafla: Sýnir aukna tíðni færnihegðana í samtölum með endurtekningu og betrumbótum.

Þessi "áhrif endurtekningar og betrumbóta" undirstrika mikilvægi þess að líta á gervigreind sem hugsunarfélaga frekar en aðeins verkefnisstjóra. Notendur sem taka virkan þátt í samtali, mótmæla og betrumbæta fyrirspurnir sínar, eru verulega líklegri til að meta gagnrýnt afurðir gervigreindar, draga rökstuðning hennar í efa og bera kennsl á mikilvægt vantar samhengi. Þetta samræmist hugmyndinni um umboðsferli, þar sem eftirlit manna og endurtekin endurgjöf leiðir til betri niðurstaðna, eins og kannað hefur verið í umræðum um vettvang eins og GitHub umboðsferli.

Tvöfalda sverðið við sköpun gervigreindarafurða

Þótt endurtekning auki almenna færni, leiddi skýrslan í ljós fínlegt mynstur þegar notendur hvetja gervigreind til að búa til afurðir eins og kóða, skjöl eða gagnvirk verkfæri. Þessi samtöl, sem eru 12,3% af úrtakinu, sýndu að notendur urðu stýrðari en þó undarlega minna gagnrýnir.

Við sköpun afurða voru notendur líklegri til að skýra markmið sín (+14,7 prósentustig), tilgreina snið (+14,5pp) og veita dæmi (+13,4pp). Hins vegar skilaði þessi aukna stýrðni sér ekki í meiri skarpskyggni. Reyndar voru notendur mun ólíklegri til að bera kennsl á vantar samhengi (-5,2pp), athuga staðreyndir (-3,7pp) eða draga rökstuðning líkansins í efa (-3,1pp). Þessi þróun er sérstaklega áhyggjuefni þar sem flókin verkefni, oft tengd sköpun afurða, eru þar sem gervigreindarlíkön eins og Claude Opus 4.6 eða jafnvel háþróuð líkön eins og GPT-5 (ef það væri á markaði, þótt tengillinn vísi til framtíðar eða tilgátuútgáfu) eru líklegust til að lenda í erfiðleikum.

Þetta fyrirbæri gæti verið rakið til fáguðu, virku útkoma sem gervigreind býr oft til, sem gæti svæft notendur í falska tilfinningu um að verkinu sé lokið. Hvort sem það er að hanna notendaviðmót eða draga upp lagalega greiningu, er hæfileikinn til að rýna gagnrýnt í afurð gervigreindar enn mikilvægastur. Eftir því sem gervigreindarlíkön verða flóknari, eykst hættan á óásættanlegri samþykkt á virðist fullkomnum útkoma, sem gerir gagnrýna færni verðmætari en nokkru sinni fyrr.

Að efla eigin gervigreindarfærni

Góðu fréttirnar eru þær að gervigreindarfærni, eins og önnur færni, er hægt að þróa. Byggt á niðurstöðum sínum, býður Anthropic upp á hagnýt ráð fyrir notendur sem vilja efla samvinnu sína við gervigreind:

  1. Að halda sig í samtalinu: Líttu á upphafssvör gervigreindar sem upphafspunkt. Spyrðu eftirfylgnispurninga, dragðu forsendur í efa og betrumbættu beiðnir þínar endurtekið. Þessi virka þátttaka er sterkasti vísirinn að annarri færnihegðun.
  2. Að draga í efa fáguð svör: Þegar gervigreindarlíkan býr til eitthvað sem virðist heilt og nákvæmt, taktu þá pásu og beittu gagnrýnni hugsun. Spyrðu: Er þetta virkilega nákvæmt? Er eitthvað sem vantar? Halda rökin vatni? Ekki láta sjónræna fágun yfirgnæfa gagnrýnt mat.
  3. Að setja skilmála samstarfsins: Skilgreindu fyrirfram hvernig þú vilt að gervigreindin hafi samskipti við þig. Skýrar leiðbeiningar eins og "Mótmæltu ef forsendur mínar eru rangar," "Gakktu í gegnum rökstuðning þinn með mér," eða "Segðu mér hvað þú ert óviss um" geta grundvallarbreytt gangverkinu og stuðlað að gegnsærri og sterkari samvinnu.

Grunnviðmið fyrir framtíðarþróun gervigreindarfærni

Það er mikilvægt að viðurkenna takmarkanir þessarar upphaflegu rannsóknar. Úrtakið, sem samanstendur af Claude.ai notendum sem eiga í mörgum samræðum frá byrjun árs 2026, hallast líklega að snemma notendum sem þegar eru vanir gervigreind, en ekki almenningi. Rannsóknin einblínir einnig eingöngu á athuganlega hegðun innan spjallviðmótsins, og skilur eftir mikilvæga siðferðilega og ábyrga notkunarhegðun sem á sér stað utan. Þessar fyrirvarar þýða að Gervigreindarfærniviðmiðið veitir grunnviðmið fyrir þennan tiltekna hóp og upphafspunkt fyrir dýpri, langtímarannsóknir.

Þrátt fyrir þessar takmarkanir markar Gervigreindarfærniviðmiðið mikilvægt skref í átt að því að skilja og efla árangursríka samvinnu manna og gervigreindar. Eftir því sem gervigreindarverkfæri halda áfram að þróast, mun það að efla notendur með færni til að taka gagnrýnt, endurtekið og ábyrgt þátt verða miðlægt í því að átta sig á fullri möguleika þessarar tækni á sama tíma og áhættur hennar eru dregnar úr. Þessi upphaflega skýrsla setur sviðið fyrir framtíðarrannsóknir og lofar að leiðbeina bæði notendum og þróunaraðilum í því að byggja upp flóknari og ábatasamari gervigreindardrifna framtíð.

Algengar spurningar

What is the Anthropic AI Fluency Index?
The Anthropic AI Fluency Index is a new metric developed by Anthropic to assess how well individuals are developing skills to effectively use AI tools. Moving beyond mere adoption, the index tracks 11 directly observable behaviors that represent safe and effective human-AI collaboration, based on the 4D AI Fluency Framework. It aims to provide a baseline measurement of user proficiency, helping to understand how these critical skills evolve as AI technology becomes more integrated into daily life. The initial study analyzed nearly 10,000 conversations on Claude.ai to identify key patterns in user interaction and skill development.
How is AI fluency measured by Anthropic?
AI fluency is measured by tracking the presence or absence of 11 specific behavioral indicators during user interactions with Claude on Claude.ai. These indicators are derived from the broader 4D AI Fluency Framework, which defines 24 behaviors of safe and effective human-AI collaboration. For the initial study, Anthropic utilized a privacy-preserving analysis tool to examine 9,830 multi-turn conversations over a 7-day period. Behaviors like 'iteration and refinement,' 'questioning reasoning,' and 'identifying missing context' were observed and classified as present or absent within each conversation, providing a quantitative baseline for AI proficiency.
What is the 'iteration and refinement effect' in AI fluency?
The 'iteration and refinement effect' refers to the strong correlation found between users who build on previous exchanges to refine their work with AI, and the display of other key AI fluency behaviors. Conversations exhibiting iteration and refinement—meaning users don't just accept the first AI response but actively engage in follow-up questions, pushbacks, and adjustments—showed significantly higher rates of other fluency indicators. For instance, these iterative conversations were 5.6 times more likely to involve users questioning Claude's reasoning and 4 times more likely to identify missing context, underscoring the importance of sustained, dynamic engagement for developing AI proficiency.
Why do users become less evaluative when creating artifacts with AI?
Anthropic's research found that when users engage AI to create artifacts such as code, documents, or interactive tools, they tend to become more directive but paradoxically less evaluative. This means users are more likely to clarify goals and provide examples, but less likely to question the model's reasoning, identify missing context, or check facts. Possible explanations include the polished appearance of AI-generated outputs, which might lead users to prematurely trust the results, or the nature of certain tasks where functional aesthetics might outweigh factual precision. Regardless, this pattern highlights a critical area for improvement in human-AI collaboration, emphasizing the need for continued critical assessment even with seemingly complete outputs.
How can individuals improve their AI fluency according to Anthropic?
Anthropic suggests three key areas for individuals to enhance their AI fluency. First, 'staying in the conversation' means treating initial AI responses as starting points, asking follow-up questions, and actively refining outputs. Second, 'questioning polished outputs' involves critically evaluating AI-generated artifacts for accuracy, completeness, and logical soundness, even if they appear perfect. Third, 'setting the terms of the collaboration' encourages users to explicitly instruct AI on how to interact, for example, by asking it to explain its reasoning or push back on assumptions. These practices aim to foster deeper engagement and critical thinking in human-AI interactions.
What are the limitations of the AI Fluency Index study?
The initial AI Fluency Index study has several important limitations. The sample is restricted to Claude.ai users engaging in multi-turn conversations during a single week in January 2026, which likely skews towards early adopters and may not represent the broader population. The study also only assesses 11 out of 24 behaviors from the 4D AI Fluency Framework, focusing solely on directly observable interactions within the chat interface, thus missing crucial ethical and responsible use behaviors that occur externally. Furthermore, the binary classification of behaviors might overlook nuanced demonstrations, and it cannot account for 'implicit behaviors' where users might mentally evaluate AI outputs without verbalizing their critical assessment in the chat.

Fylgstu með

Fáðu nýjustu gervigreindarfréttirnar í pósthólfið.

Deila