Code Velocity
AI-forskning

AI-flytindeks: Måling av ferdigheter innen menneske-AI-samarbeid

·7 min lesing·Anthropic·Opprinnelig kilde
Del
Grafikk som illustrerer konseptet med AI-flyt og menneske-AI-samarbeid, med datapunkt.

Flyt først: Anthropics AI-indeks for dyktig samarbeid

Den raske integreringen av AI-verktøy i daglige rutiner har vært intet mindre enn forbløffende. Men, etter hvert som AI blir en allestedsnærværende tilstedeværelse, dukker et kritisk spørsmål opp: adopterer brukerne bare disse verktøyene, eller utvikler de de nødvendige ferdighetene for å utnytte dem effektivt? Anthropic, en leder innen ansvarlig AI-utvikling, har som mål å svare på dette med sin banebrytende AI-flytindeks, en ny rapport designet for å måle og spore utviklingen av ferdigheter innen menneske-AI-samarbeid.

Tidligere Anthropic Education Reports belyste hvordan universitetsstudenter og lærere bruker avanserte modeller som Claude for oppgaver som spenner fra rapportgenerering til leksjonsplanlegging. Imidlertid fokuserte disse studiene primært på hva brukerne gjorde. AI-flytindeksen går dypere, og utforsker hvor godt enkeltpersoner engasjerer seg med AI, og introduserer et rammeverk for å forstå "flyt" med denne transformative teknologien.

Avkoding av AI-flyt: 4D-rammeverket

For å kvantifisere AI-flyt, samarbeidet Anthropic med professorene Rick Dakan og Joseph Feller for å utvikle 4D AI-flytrammeverket. Dette omfattende rammeverket identifiserer 24 spesifikke atferder som eksemplifiserer trygt og effektivt menneske-AI-samarbeid. For denne innledende studien fokuserte Anthropic på 11 atferder som er direkte observerbare innenfor Claude.ai chat-grensesnittet. De resterende 13, som inkluderer kritiske aspekter som å være ærlig om AIs rolle i arbeidet eller å vurdere konsekvensene av AI-genererte utdata, forekommer utenfor chatten og vil bli vurdert i fremtidig kvalitativ forskning.

Ved hjelp av et personvernbevarende analyseverktøy studerte forskningsteamet nøye 9 830 fler-tur samtaler på Claude.ai i løpet av en 7-dagers periode i januar 2026. Dette omfattende datasettet ga en robust grunnlinje for å måle tilstedeværelsen eller fraværet av de 11 observerbare flytatferdene, noe som førte til opprettelsen av AI-flytindeksen. Indeksen gir et øyeblikksbilde av nåværende samarbeidsmønstre og et grunnlag for å spore deres utvikling etter hvert som AI-modellene avanserer.

Kraften i iterering og forbedring i AI-interaksjon

Et av de mest overbevisende funnene fra AI-flytindeksen er den sterke korrelasjonen mellom iterering og forbedring og nesten alle andre AI-flytatferder. Studien avslørte at 85,7% av samtalene involverte brukere som bygget på tidligere utvekslinger for å forbedre sitt arbeid, i stedet for bare å akseptere det første svaret. Disse iterative samtalene viste betydelig høyere rater av andre flytatferder, og doblet effektivt ferdighetene sett i raske, frem og tilbake-samtaler.

Itereringens innvirkning på AI-flytatferder

AtferdsindikatorSamtaler med iterering og forbedring (n=8,424)Samtaler uten iterering og forbedring (n=1,406)Økningsfaktor (iterativ vs. ikke-iterativ)
Stille spørsmål ved Claudes resonnementHøyLav5.6x
Identifisere manglende kontekstHøyLav4x
Klargjøre målHøyMiddels~2x
Spesifisere formatHøyMiddels~2x
Gi eksemplerHøyMiddels~2x
Gjennomsnittlig ytterligere flytatferder2.671.332x

Tabell: Illustrerer den økte forekomsten av flytatferder i samtaler med iterering og forbedring.

Denne 'effekten av iterering og forbedring' understreker viktigheten av å behandle AI som en tankepartner snarere enn en ren oppgavedelegerende. Brukere som aktivt engasjerer seg i en dialog, utfordrer og forbedrer sine spørsmål, er betydelig mer sannsynlige til å kritisk evaluere AI-utdata, stille spørsmål ved dens resonnement, og identifisere avgjørende manglende kontekst. Dette stemmer overens med konseptet om agentiske arbeidsflyter, der menneskelig tilsyn og iterativ tilbakemelding driver bedre resultater, som utforsket i diskusjoner rundt plattformer som GitHub Agentiske Arbeidsflyter.

Det tveeggede sverdet ved AI-artefaktopprettelse

Mens iterering øker den generelle flyten, avdekket rapporten et nyansert mønster når brukere ber AI om å produsere artefakter som kode, dokumenter eller interaktive verktøy. Disse samtalene, som utgjør 12,3% av utvalget, viste at brukere ble mer direkte men overraskende nok mindre evaluerende.

Når de opprettet artefakter, var brukere mer sannsynlige til å klargjøre sine mål (+14,7 prosentpoeng), spesifisere formater (+14,5pp) og gi eksempler (+13,4pp). Imidlertid oversatte denne økte direktheten seg ikke til større dømmekraft. Faktisk var brukere merkbart mindre sannsynlige til å identifisere manglende kontekst (-5,2pp), sjekke fakta (-3,7pp), eller stille spørsmål ved modellens resonnement (-3,1pp). Denne trenden er spesielt bekymringsfull gitt at komplekse oppgaver, ofte assosiert med artefaktopprettelse, er der AI-modeller som Claude Opus 4.6 eller til og med avanserte modeller som GPT-5 (hvis den var i omløp, selv om lenken peker til en fremtidig eller hypotetisk versjon) mest sannsynlig vil støte på vanskeligheter.

Dette fenomenet kan tilskrives de polerte, funksjonelt utseende utdataene AI ofte genererer, noe som kan lure brukere til en falsk følelse av fullføring. Enten det er å designe et brukergrensesnitt eller utarbeide en juridisk analyse, er evnen til å kritisk granske AIs utdata fortsatt avgjørende. Etter hvert som AI-modeller blir mer sofistikerte, vokser risikoen for ukritisk aksept av tilsynelatende perfekte utdata, noe som gjør evalueringsferdigheter mer verdifulle enn noensinne.

Kultivering av din egen AI-flyt

Den gode nyheten er at AI-flyt, som enhver ferdighet, kan utvikles. Basert på funnene deres, tilbyr Anthropic praktiske råd for brukere som ønsker å forbedre sitt menneske-AI-samarbeid:

  1. Å bli i samtalen: Omfavn innledende AI-svar som et utgangspunkt. Engasjer deg i oppfølgingsspørsmål, utfordre antagelser, og iterativt forbedre dine forespørsler. Dette aktive engasjementet er den sterkeste prediktoren for andre flytatferder.
  2. Stille spørsmål ved polerte utdata: Når en AI-modell produserer noe som ser komplett og nøyaktig ut, ta en pause og anvend kritisk tenkning. Spør: Er dette virkelig nøyaktig? Er det noe som mangler? Holder resonnementet? Ikke la visuell glans overkjøre kritisk evaluering.
  3. Sette vilkårene for samarbeidet: Definer proaktivt hvordan du vil at AI skal interagere med deg. Eksplisitte instruksjoner som 'Push tilbake hvis mine antagelser er feil,' 'Gå gjennom resonnementet ditt med meg,' eller 'Fortell meg hva du er usikker på' kan fundamentalt endre dynamikken, og fremme et mer transparent og robust samarbeid.

En grunnlinje for fremtidig utvikling av AI-ferdigheter

Det er viktig å erkjenne begrensningene ved denne innledende studien. Utvalget, som består av fler-tur brukere av Claude.ai fra tidlig 2026, favoriserer sannsynligvis tidlige brukere som allerede er komfortable med AI, ikke den bredere befolkningen. Studien fokuserer også utelukkende på observerbare atferder innenfor chat-grensesnittet, og utelater avgjørende etisk og ansvarlig bruksatferd som forekommer eksternt. Disse forbeholdene betyr at AI-flytindeksen gir en grunnlinje for denne spesifikke populasjonen og et utgangspunkt for dypere, longitudinell forskning.

Til tross for disse begrensningene markerer AI-flytindeksen et betydelig skritt mot å forstå og fremme effektivt menneske-AI-samarbeid. Etter hvert som AI-verktøy fortsetter å utvikle seg, vil det å styrke brukere med ferdighetene til å engasjere seg kritisk, iterativt og ansvarlig være sentralt for å realisere det fulle potensialet i denne teknologien samtidig som risikoene reduseres. Denne innledende rapporten legger grunnlaget for fremtidig forskning, og lover å veilede både brukere og utviklere i å bygge en mer flytende og fordelaktig AI-drevet fremtid.

Ofte stilte spørsmål

What is the Anthropic AI Fluency Index?
The Anthropic AI Fluency Index is a new metric developed by Anthropic to assess how well individuals are developing skills to effectively use AI tools. Moving beyond mere adoption, the index tracks 11 directly observable behaviors that represent safe and effective human-AI collaboration, based on the 4D AI Fluency Framework. It aims to provide a baseline measurement of user proficiency, helping to understand how these critical skills evolve as AI technology becomes more integrated into daily life. The initial study analyzed nearly 10,000 conversations on Claude.ai to identify key patterns in user interaction and skill development.
How is AI fluency measured by Anthropic?
AI fluency is measured by tracking the presence or absence of 11 specific behavioral indicators during user interactions with Claude on Claude.ai. These indicators are derived from the broader 4D AI Fluency Framework, which defines 24 behaviors of safe and effective human-AI collaboration. For the initial study, Anthropic utilized a privacy-preserving analysis tool to examine 9,830 multi-turn conversations over a 7-day period. Behaviors like 'iteration and refinement,' 'questioning reasoning,' and 'identifying missing context' were observed and classified as present or absent within each conversation, providing a quantitative baseline for AI proficiency.
What is the 'iteration and refinement effect' in AI fluency?
The 'iteration and refinement effect' refers to the strong correlation found between users who build on previous exchanges to refine their work with AI, and the display of other key AI fluency behaviors. Conversations exhibiting iteration and refinement—meaning users don't just accept the first AI response but actively engage in follow-up questions, pushbacks, and adjustments—showed significantly higher rates of other fluency indicators. For instance, these iterative conversations were 5.6 times more likely to involve users questioning Claude's reasoning and 4 times more likely to identify missing context, underscoring the importance of sustained, dynamic engagement for developing AI proficiency.
Why do users become less evaluative when creating artifacts with AI?
Anthropic's research found that when users engage AI to create artifacts such as code, documents, or interactive tools, they tend to become more directive but paradoxically less evaluative. This means users are more likely to clarify goals and provide examples, but less likely to question the model's reasoning, identify missing context, or check facts. Possible explanations include the polished appearance of AI-generated outputs, which might lead users to prematurely trust the results, or the nature of certain tasks where functional aesthetics might outweigh factual precision. Regardless, this pattern highlights a critical area for improvement in human-AI collaboration, emphasizing the need for continued critical assessment even with seemingly complete outputs.
How can individuals improve their AI fluency according to Anthropic?
Anthropic suggests three key areas for individuals to enhance their AI fluency. First, 'staying in the conversation' means treating initial AI responses as starting points, asking follow-up questions, and actively refining outputs. Second, 'questioning polished outputs' involves critically evaluating AI-generated artifacts for accuracy, completeness, and logical soundness, even if they appear perfect. Third, 'setting the terms of the collaboration' encourages users to explicitly instruct AI on how to interact, for example, by asking it to explain its reasoning or push back on assumptions. These practices aim to foster deeper engagement and critical thinking in human-AI interactions.
What are the limitations of the AI Fluency Index study?
The initial AI Fluency Index study has several important limitations. The sample is restricted to Claude.ai users engaging in multi-turn conversations during a single week in January 2026, which likely skews towards early adopters and may not represent the broader population. The study also only assesses 11 out of 24 behaviors from the 4D AI Fluency Framework, focusing solely on directly observable interactions within the chat interface, thus missing crucial ethical and responsible use behaviors that occur externally. Furthermore, the binary classification of behaviors might overlook nuanced demonstrations, and it cannot account for 'implicit behaviors' where users might mentally evaluate AI outputs without verbalizing their critical assessment in the chat.

Hold deg oppdatert

Få de siste AI-nyhetene i innboksen din.

Del