Code Velocity
AI-forskning

AI-flytindex: Mätning av färdigheter i människa-AI-samarbete

·7 min läsning·Anthropic·Originalkälla
Dela
Grafik som illustrerar konceptet AI-flyt och människa-AI-samarbete, med datapunkter.

Flyt först: Anthropics AI-index för skickligt samarbete

Den snabba integrationen av AI-verktyg i våra dagliga rutiner har varit inget mindre än häpnadsväckande. Men när AI blir en allestädes närvarande del av vår tillvaro uppstår en kritisk fråga: Använder användarna bara dessa verktyg, eller utvecklar de de nödvändiga färdigheterna för att utnyttja dem effektivt? Anthropic, en ledare inom ansvarsfull AI-utveckling, syftar till att besvara detta med sin banbrytande AI-flytindex, en ny rapport utformad för att mäta och spåra utvecklingen av färdigheter i människa-AI-samarbete.

Tidigare Anthropic Education Reports belyste hur universitetsstudenter och utbildare använder avancerade modeller som Claude för uppgifter som sträcker sig från rapportgenerering till lektionsplanering. Dessa studier fokuserade dock främst på vad användarna gjorde. AI-flytindexet går djupare och utforskar hur väl individer engagerar sig i AI, och introducerar ett ramverk för att förstå "flyt" med denna transformerande teknik.

Avkodning av AI-flyt: 4D-ramverket

För att kvantifiera AI-flyt samarbetade Anthropic med professorerna Rick Dakan och Joseph Feller för att utveckla 4D AI-flytramverket. Detta omfattande ramverk identifierar 24 specifika beteenden som exemplifierar säkert och effektivt människa-AI-samarbete. För denna inledande studie fokuserade Anthropic på 11 beteenden som var direkt observerbara inom Claude.ai-chattgränssnittet. De återstående 13, som inkluderar kritiska aspekter som att vara ärlig om AI:s roll i arbetet eller att överväga konsekvenserna av AI-genererade resultat, inträffar utanför chatten och kommer att bedömas i framtida kvalitativ forskning.

Med hjälp av ett integritetsbevarande analysverktyg studerade forskningsteamet noggrant 9 830 konversationer med flera turer på Claude.ai under en 7-dagarsperiod i januari 2026. Detta omfattande dataset gav en robust baslinje för att mäta förekomsten eller frånvaron av de 11 observerbara flytbeteendena, vilket ledde till skapandet av AI-flytindexet. Indexet ger en ögonblicksbild av nuvarande samarbetsmönster och en grund för att spåra deras utveckling när AI-modeller avancerar.

Kraften i iteration och förfining i AI-interaktion

En av de mest övertygande fynden från AI-flytindexet är den starka korrelationen mellan iteration och förfining och nästan alla andra flytbeteenden för AI. Studien visade att 85,7% av konversationerna involverade användare som byggde vidare på tidigare utbyten för att förfina sitt arbete, snarare än att bara acceptera det första svaret. Dessa iterativa konversationer visade betydligt högre frekvenser av andra flytbeteenden, vilket effektivt fördubblade kompetensen jämfört med snabba, fram-och-tillbaka-chattar.

Iterationens inverkan på AI-flytbeteenden

BeteendeindikatorKonversationer med iteration och förfining (n=8 424)Konversationer utan iteration och förfining (n=1 406)Ökningsfaktor (iterativ vs. icke-iterativ)
Ifrågasätter Claudes resonemangHögLåg5.6x
Identifierar saknad kontextHögLåg4x
Klargör målHögMellan~2x
Anger formatHögMellan~2x
Ger exempelHögMellan~2x
Genomsnittligt antal ytterligare flytbeteenden2.671.332x

Tabell: Illustrerar den ökade förekomsten av flytbeteenden i konversationer med iteration och förfining.

Denna "iterations- och förfinningseffekt" understryker vikten av att behandla AI som en tankepartner snarare än enbart en uppgiftsdelegat. Användare som aktivt engagerar sig i en dialog, invänder och förfinar sina frågor, är betydligt mer benägna att kritiskt utvärdera AI-utdata, ifrågasätta dess resonemang och identifiera avgörande saknad kontext. Detta överensstämmer med konceptet agentiska arbetsflöden, där mänsklig tillsyn och iterativ feedback leder till bättre resultat, som utforskats i diskussioner kring plattformar som GitHub Agentic Workflows.

Den dubbeleggade eggen i skapandet av AI-artefakter

Medan iteration ökar det övergripande flytet, upptäckte rapporten ett nyanserat mönster när användare uppmanar AI att producera artefakter som kod, dokument eller interaktiva verktyg. Dessa konversationer, som utgjorde 12,3% av urvalet, visade att användarna blev mer direktiva men förvånansvärt nog mindre utvärderande.

Vid skapandet av artefakter var användarna mer benägna att klargöra sina mål (+14,7 procentenheter), ange format (+14,5 procentenheter) och ge exempel (+13,4 procentenheter). Denna ökade direktivitet översattes dock inte till större urskiljningsförmåga. Faktum är att användare var betydligt mindre benägna att identifiera saknad kontext (-5,2 procentenheter), kontrollera fakta (-3,7 procentenheter) eller ifrågasätta modellens resonemang (-3,1 procentenheter). Denna trend är särskilt oroande med tanke på att komplexa uppgifter, ofta associerade med skapandet av artefakter, är där AI-modeller som Claude Opus 4.6 eller till och med avancerade modeller som GPT-5 (om den fanns i verkligheten, även om länken pekar på en framtida eller hypotetisk version) är mest benägna att stöta på svårigheter.

Detta fenomen kan tillskrivas de polerade, funktionellt utseende resultat som AI ofta genererar, vilket kan invagga användare i en falsk känsla av fullständighet. Oavsett om det handlar om att designa ett användargränssnitt eller att utforma en juridisk analys, förblir förmågan att kritiskt granska AI:s utdata av yttersta vikt. När AI-modeller blir mer sofistikerade, ökar risken för okritisk acceptans av till synes perfekta resultat, vilket gör utvärderande färdigheter mer värdefulla än någonsin.

Att odla ditt eget AI-flyt

Den goda nyheten är att AI-flyt, precis som vilken färdighet som helst, kan utvecklas. Baserat på sina fynd erbjuder Anthropic praktiska råd för användare som vill förbättra sitt människa-AI-samarbete:

  1. Att stanna kvar i konversationen: Betrakta initiala AI-svar som en utgångspunkt. Ställ följdfrågor, utmana antaganden och förfina iterativt dina förfrågningar. Detta aktiva engagemang är den starkaste prediktorn för andra flytbeteenden.
  2. Att ifrågasätta polerade utdata: När en AI-modell producerar något som ser komplett och korrekt ut, pausa och tillämpa kritiskt tänkande. Fråga: Är detta verkligen korrekt? Saknas något? Håller resonemanget? Låt inte visuell polish åsidosätta kritisk utvärdering.
  3. Att sätta ramarna för samarbetet: Definiera proaktivt hur du vill att AI ska interagera med dig. Uttryckliga instruktioner som 'Invänd om mina antaganden är felaktiga', 'Vägled mig genom ditt resonemang' eller 'Berätta vad du är osäker på' kan fundamentalt förändra dynamiken och främja ett mer transparent och robust samarbete.

En baslinje för framtida utveckling av AI-färdigheter

Det är viktigt att erkänna begränsningarna i denna inledande studie. Urvalet, som omfattar Claude.ai-användare med flera turer från tidigt 2026, snedvrider sannolikt mot tidiga användare som redan är bekväma med AI, inte den bredare befolkningen. Studien fokuserar också enbart på observerbara beteenden inom chattgränssnittet, och utelämnar avgörande etiska och ansvarsfulla användarbeteenden som inträffar externt. Dessa förbehåll innebär att AI-flytindexet ger en baslinje för denna specifika population och en utgångspunkt för djupare, longitudinell forskning.

Trots dessa begränsningar markerar AI-flytindexet ett viktigt steg mot att förstå och främja effektivt människa-AI-samarbete. När AI-verktygen fortsätter att utvecklas kommer att ge användare färdigheter att engagera sig kritiskt, iterativt och ansvarsfullt att vara centralt för att förverkliga den fulla potentialen hos denna teknik samtidigt som dess risker minskar. Denna inledande rapport sätter scenen för framtida forskning och lovar att vägleda både användare och utvecklare i att bygga en mer flytande och fördelaktig AI-driven framtid.

Vanliga frågor

What is the Anthropic AI Fluency Index?
The Anthropic AI Fluency Index is a new metric developed by Anthropic to assess how well individuals are developing skills to effectively use AI tools. Moving beyond mere adoption, the index tracks 11 directly observable behaviors that represent safe and effective human-AI collaboration, based on the 4D AI Fluency Framework. It aims to provide a baseline measurement of user proficiency, helping to understand how these critical skills evolve as AI technology becomes more integrated into daily life. The initial study analyzed nearly 10,000 conversations on Claude.ai to identify key patterns in user interaction and skill development.
How is AI fluency measured by Anthropic?
AI fluency is measured by tracking the presence or absence of 11 specific behavioral indicators during user interactions with Claude on Claude.ai. These indicators are derived from the broader 4D AI Fluency Framework, which defines 24 behaviors of safe and effective human-AI collaboration. For the initial study, Anthropic utilized a privacy-preserving analysis tool to examine 9,830 multi-turn conversations over a 7-day period. Behaviors like 'iteration and refinement,' 'questioning reasoning,' and 'identifying missing context' were observed and classified as present or absent within each conversation, providing a quantitative baseline for AI proficiency.
What is the 'iteration and refinement effect' in AI fluency?
The 'iteration and refinement effect' refers to the strong correlation found between users who build on previous exchanges to refine their work with AI, and the display of other key AI fluency behaviors. Conversations exhibiting iteration and refinement—meaning users don't just accept the first AI response but actively engage in follow-up questions, pushbacks, and adjustments—showed significantly higher rates of other fluency indicators. For instance, these iterative conversations were 5.6 times more likely to involve users questioning Claude's reasoning and 4 times more likely to identify missing context, underscoring the importance of sustained, dynamic engagement for developing AI proficiency.
Why do users become less evaluative when creating artifacts with AI?
Anthropic's research found that when users engage AI to create artifacts such as code, documents, or interactive tools, they tend to become more directive but paradoxically less evaluative. This means users are more likely to clarify goals and provide examples, but less likely to question the model's reasoning, identify missing context, or check facts. Possible explanations include the polished appearance of AI-generated outputs, which might lead users to prematurely trust the results, or the nature of certain tasks where functional aesthetics might outweigh factual precision. Regardless, this pattern highlights a critical area for improvement in human-AI collaboration, emphasizing the need for continued critical assessment even with seemingly complete outputs.
How can individuals improve their AI fluency according to Anthropic?
Anthropic suggests three key areas for individuals to enhance their AI fluency. First, 'staying in the conversation' means treating initial AI responses as starting points, asking follow-up questions, and actively refining outputs. Second, 'questioning polished outputs' involves critically evaluating AI-generated artifacts for accuracy, completeness, and logical soundness, even if they appear perfect. Third, 'setting the terms of the collaboration' encourages users to explicitly instruct AI on how to interact, for example, by asking it to explain its reasoning or push back on assumptions. These practices aim to foster deeper engagement and critical thinking in human-AI interactions.
What are the limitations of the AI Fluency Index study?
The initial AI Fluency Index study has several important limitations. The sample is restricted to Claude.ai users engaging in multi-turn conversations during a single week in January 2026, which likely skews towards early adopters and may not represent the broader population. The study also only assesses 11 out of 24 behaviors from the 4D AI Fluency Framework, focusing solely on directly observable interactions within the chat interface, thus missing crucial ethical and responsible use behaviors that occur externally. Furthermore, the binary classification of behaviors might overlook nuanced demonstrations, and it cannot account for 'implicit behaviors' where users might mentally evaluate AI outputs without verbalizing their critical assessment in the chat.

Håll dig uppdaterad

Få de senaste AI-nyheterna i din inkorg.

Dela