Code Velocity
AI-forskning

AI-flydendeindeks: Måling af færdigheder i menneske-AI-samarbejde

·7 min læsning·Anthropic·Original kilde
Del
Grafik, der illustrerer konceptet AI-flydende og menneske-AI-samarbejde, med datapunkter.

Flydende først: Anthropics AI-indeks for dygtigt samarbejde

Den hurtige integration af AI-værktøjer i daglige rutiner har været intet mindre end forbløffende. Men efterhånden som AI bliver en allestedsnærværende tilstedeværelse, opstår et kritisk spørgsmål: er brugere blot ved at tage disse værktøjer i brug, eller udvikler de de nødvendige færdigheder til effektivt at udnytte dem? Anthropic, en leder inden for ansvarlig AI-udvikling, sigter mod at besvare dette med deres banebrydende AI-flydendeindeks, en ny rapport designet til at måle og spore udviklingen af færdigheder i menneske-AI-samarbejde.

Tidligere Anthropic Education Reports kastede lys over, hvordan universitetsstuderende og undervisere bruger avancerede modeller som Claude til opgaver lige fra rapportgenerering til lektionsplanlægning. Disse studier fokuserede dog primært på hvad brugere gjorde. AI-flydendeindekset går dybere og udforsker hvor godt enkeltpersoner interagerer med AI og introducerer et rammeværk for at forstå "flydende" med denne transformative teknologi.

Afkodning af AI-flydende: 4D-rammeværket

For at kvantificere AI-flydende samarbejdede Anthropic med professorerne Rick Dakan og Joseph Feller om at udvikle 4D AI-flydende-rammeværket. Dette omfattende rammeværk identificerer 24 specifikke adfærdsmønstre, der eksemplificerer sikkert og effektivt menneske-AI-samarbejde. Til denne indledende undersøgelse fokuserede Anthropic på 11 adfærdsmønstre, der er direkte observerbare inden for Claude.ai-chatgrænsefladen. De resterende 13, som inkluderer kritiske aspekter som at være ærlig om AI's rolle i arbejdet eller at overveje konsekvenserne af AI-genereret output, forekommer uden for chatten og vil blive vurderet i fremtidig kvalitativ forskning.

Ved hjælp af et privatlivsbevarende analyseværktøj studerede forskerteamet omhyggeligt 9.830 samtaler med flere udvekslinger på Claude.ai i løbet af en 7-dages periode i januar 2026. Dette omfattende datasæt gav en robust baseline for måling af tilstedeværelsen eller fraværet af de 11 observerbare flydende-adfærdsmønstre, hvilket førte til oprettelsen af AI-flydendeindekset. Indekset giver et øjebliksbillede af nuværende samarbejdsmønstre og et grundlag for at spore deres udvikling, efterhånden som AI-modellerne skrider frem.

Kraften ved iteration og forfining i AI-interaktion

Et af de mest overbevisende fund fra AI-flydendeindekset er den stærke sammenhæng mellem iteration og forfining og næsten alle andre AI-flydende-adfærdsmønstre. Undersøgelsen afslørede, at 85,7% af samtalerne involverede brugere, der byggede videre på tidligere udvekslinger for at forfine deres arbejde, snarere end blot at acceptere det indledende svar. Disse iterative samtaler udviste væsentligt højere rater af andre flydende-adfærdsmønstre, hvilket effektivt fordoblede den færdighed, der ses i hurtige, frem og tilbage chats.

Iterations indflydelse på AI-flydende-adfærdsmønstre

AdfærdsindikatorSamtaler med iteration og forfining (n=8,424)Samtaler uden iteration og forfining (n=1,406)Stigningsfaktor (Iterativ vs. Ikke-iterativ)
Spørgsmålstegn ved Claudes ræsonnementHøjLav5.6x
Identifikation af manglende kontekstHøjLav4x
Præcisering af målHøjMedium~2x
Specifikation af formatHøjMedium~2x
Tilvejebringelse af eksemplerHøjMedium~2x
Gennemsnitligt antal yderligere flydende-adfærdsmønstre2.671.332x

Tabel: Illustrerer den øgede udbredelse af flydende-adfærdsmønstre i samtaler med iteration og forfining.

Denne 'iteration- og forfiningseffekt' understreger vigtigheden af at behandle AI som en tankepartner snarere end blot en opgaveuddelegeret. Brugere, der aktivt deltager i en dialog, modsiger og forfiner deres forespørgsler, er markant mere tilbøjelige til kritisk at evaluere AI-outputs, stille spørgsmålstegn ved dens ræsonnement og identificere afgørende manglende kontekst. Dette stemmer overens med konceptet om agentiske arbejdsgange, hvor menneskelig overvågning og iterativ feedback driver bedre resultater, som udforsket i diskussioner omkring platforme som GitHub Agentic Workflows.

Det tveæggede sværd ved AI-artefaktfremstilling

Mens iteration øger den generelle flydende, afdækkede rapporten et nuanceret mønster, når brugere beder AI om at producere artefakter som kode, dokumenter eller interaktive værktøjer. Disse samtaler, der udgør 12,3% af stikprøven, viste, at brugere blev mere direktive, men overraskende nok mindre evaluerende.

Ved oprettelse af artefakter var brugere mere tilbøjelige til at præcisere deres mål (+14,7 procentpoint), specificere formater (+14,5 pp) og give eksempler (+13,4 pp). Denne øgede direktivitet resulterede dog ikke i større dømmekraft. Faktisk var brugere markant mindre tilbøjelige til at identificere manglende kontekst (-5,2 pp), faktatjekke (-3,7 pp) eller stille spørgsmålstegn ved modellens ræsonnement (-3,1 pp). Denne tendens er særligt bekymrende i betragtning af, at komplekse opgaver, ofte forbundet med artefaktfremstilling, er der, hvor AI-modeller som Claude Opus 4.6 eller endda avancerede modeller som GPT-5 (hvis den var i omløb, selvom linket peger på en fremtidig eller hypotetisk version) med størst sandsynlighed vil støde på vanskeligheder.

Dette fænomen kan tilskrives de polerede, funktionelt udseende outputs, AI ofte genererer, hvilket kan vugge brugere ind i en falsk følelse af fuldførelse. Uanset om det drejer sig om at designe en brugergrænseflade eller udarbejde en juridisk analyse, er evnen til kritisk at granske AI's output fortsat altafgørende. Efterhånden som AI-modeller bliver mere sofistikerede, vokser risikoen for ukritisk accept af tilsyneladende perfekte outputs, hvilket gør evaluerende færdigheder mere værdifulde end nogensinde.

Dyrkning af din egen AI-flydende

Den gode nyhed er, at AI-flydende, ligesom enhver anden færdighed, kan udvikles. Baseret på deres resultater tilbyder Anthropic praktiske råd til brugere, der ønsker at forbedre deres menneske-AI-samarbejde:

  1. At blive i samtalen: Omfavn de indledende AI-svar som et udgangspunkt. Stil opfølgende spørgsmål, udfordr antagelser, og forfin løbende dine anmodninger. Dette aktive engagement er den stærkeste indikator for andre flydende-adfærdsmønstre.
  2. At sætte spørgsmålstegn ved polerede outputs: Når en AI-model producerer noget, der ser komplet og nøjagtigt ud, skal du holde pause og anvende kritisk tænkning. Spørg: Er dette virkelig nøjagtigt? Mangler der noget? Holder ræsonnementet? Lad ikke visuel polering tilsidesætte kritisk evaluering.
  3. At fastsætte vilkårene for samarbejdet: Definer proaktivt, hvordan du ønsker, at AI'en skal interagere med dig. Eksplicitte instruktioner som 'Modsig mig, hvis mine antagelser er forkerte', 'Gennemgå dit ræsonnement med mig' eller 'Fortæl mig, hvad du er usikker på' kan fundamentalt ændre dynamikken og fremme et mere gennemsigtigt og robust samarbejde.

Et grundlag for fremtidig udvikling af AI-færdigheder

Det er vigtigt at anerkende begrænsningerne ved denne indledende undersøgelse. Stikprøven, der består af Claude.ai-brugere med flere udvekslinger fra begyndelsen af 2026, favoriserer sandsynligvis tidlige brugere, der allerede er fortrolige med AI, ikke den bredere befolkning. Undersøgelsen fokuserer også udelukkende på observerbare adfærdsmønstre inden for chatgrænsefladen, hvilket udelader afgørende etiske og ansvarlige brugsadfærd, der finder sted eksternt. Disse forbehold betyder, at AI-flydendeindekset giver et grundlag for denne specifikke population og et udgangspunkt for dybere, longitudinel forskning.

På trods af disse begrænsninger markerer AI-flydendeindekset et vigtigt skridt mod at forstå og fremme effektivt menneske-AI-samarbejde. Efterhånden som AI-værktøjer fortsat udvikler sig, vil det være centralt at udstyre brugere med færdighederne til at engagere sig kritisk, iterativt og ansvarligt for at realisere teknologiens fulde potentiale og samtidig mindske dens risici. Denne indledende rapport sætter scenen for fremtidig forskning, der lover at vejlede både brugere og udviklere i at opbygge en mere flydende og gavnlig AI-drevet fremtid.

Ofte stillede spørgsmål

What is the Anthropic AI Fluency Index?
The Anthropic AI Fluency Index is a new metric developed by Anthropic to assess how well individuals are developing skills to effectively use AI tools. Moving beyond mere adoption, the index tracks 11 directly observable behaviors that represent safe and effective human-AI collaboration, based on the 4D AI Fluency Framework. It aims to provide a baseline measurement of user proficiency, helping to understand how these critical skills evolve as AI technology becomes more integrated into daily life. The initial study analyzed nearly 10,000 conversations on Claude.ai to identify key patterns in user interaction and skill development.
How is AI fluency measured by Anthropic?
AI fluency is measured by tracking the presence or absence of 11 specific behavioral indicators during user interactions with Claude on Claude.ai. These indicators are derived from the broader 4D AI Fluency Framework, which defines 24 behaviors of safe and effective human-AI collaboration. For the initial study, Anthropic utilized a privacy-preserving analysis tool to examine 9,830 multi-turn conversations over a 7-day period. Behaviors like 'iteration and refinement,' 'questioning reasoning,' and 'identifying missing context' were observed and classified as present or absent within each conversation, providing a quantitative baseline for AI proficiency.
What is the 'iteration and refinement effect' in AI fluency?
The 'iteration and refinement effect' refers to the strong correlation found between users who build on previous exchanges to refine their work with AI, and the display of other key AI fluency behaviors. Conversations exhibiting iteration and refinement—meaning users don't just accept the first AI response but actively engage in follow-up questions, pushbacks, and adjustments—showed significantly higher rates of other fluency indicators. For instance, these iterative conversations were 5.6 times more likely to involve users questioning Claude's reasoning and 4 times more likely to identify missing context, underscoring the importance of sustained, dynamic engagement for developing AI proficiency.
Why do users become less evaluative when creating artifacts with AI?
Anthropic's research found that when users engage AI to create artifacts such as code, documents, or interactive tools, they tend to become more directive but paradoxically less evaluative. This means users are more likely to clarify goals and provide examples, but less likely to question the model's reasoning, identify missing context, or check facts. Possible explanations include the polished appearance of AI-generated outputs, which might lead users to prematurely trust the results, or the nature of certain tasks where functional aesthetics might outweigh factual precision. Regardless, this pattern highlights a critical area for improvement in human-AI collaboration, emphasizing the need for continued critical assessment even with seemingly complete outputs.
How can individuals improve their AI fluency according to Anthropic?
Anthropic suggests three key areas for individuals to enhance their AI fluency. First, 'staying in the conversation' means treating initial AI responses as starting points, asking follow-up questions, and actively refining outputs. Second, 'questioning polished outputs' involves critically evaluating AI-generated artifacts for accuracy, completeness, and logical soundness, even if they appear perfect. Third, 'setting the terms of the collaboration' encourages users to explicitly instruct AI on how to interact, for example, by asking it to explain its reasoning or push back on assumptions. These practices aim to foster deeper engagement and critical thinking in human-AI interactions.
What are the limitations of the AI Fluency Index study?
The initial AI Fluency Index study has several important limitations. The sample is restricted to Claude.ai users engaging in multi-turn conversations during a single week in January 2026, which likely skews towards early adopters and may not represent the broader population. The study also only assesses 11 out of 24 behaviors from the 4D AI Fluency Framework, focusing solely on directly observable interactions within the chat interface, thus missing crucial ethical and responsible use behaviors that occur externally. Furthermore, the binary classification of behaviors might overlook nuanced demonstrations, and it cannot account for 'implicit behaviors' where users might mentally evaluate AI outputs without verbalizing their critical assessment in the chat.

Hold dig opdateret

Få de seneste AI-nyheder i din indbakke.

Del