Code Velocity
Badania AI

Indeks płynności AI: Pomiar umiejętności współpracy człowieka z AI

·7 min czytania·Anthropic·Źródło oryginalne
Udostępnij
Grafika ilustrująca koncepcję płynności w AI i współpracy człowieka z AI, z punktami danych.

Płynność przede wszystkim: Indeks AI Anthropic dla umiejętnej współpracy

Szybka integracja narzędzi AI z codziennymi rutynami jest niczym innym jak zdumiewającym zjawiskiem. Jednak w miarę jak AI staje się wszechobecne, pojawia się kluczowe pytanie: czy użytkownicy jedynie przyjmują te narzędzia, czy też rozwijają niezbędne umiejętności, aby efektywnie je wykorzystywać? Anthropic, lider w odpowiedzialnym rozwoju AI, dąży do odpowiedzi na to pytanie za pomocą swojego przełomowego Indeksu Płynności AI, nowego raportu zaprojektowanego do pomiaru i śledzenia ewolucji umiejętności współpracy człowieka z AI.

Poprzednie Raporty Edukacyjne Anthropic rzuciły światło na to, jak studenci uniwersytetów i edukatorzy wykorzystują zaawansowane modele, takie jak Claude, do zadań od generowania raportów po planowanie lekcji. Jednak te badania koncentrowały się głównie na tym, co użytkownicy robili. Indeks Płynności AI zagłębia się bardziej, badając, jak dobrze osoby angażują się w interakcję z AI, wprowadzając ramy do zrozumienia "płynności" w posługiwaniu się tą transformacyjną technologią.

Dekodowanie płynności AI: Rama 4D

Aby ilościowo określić płynność AI, Anthropic współpracował z profesorami Rickiem Dakanem i Josephem Fellerem, aby opracować Ramę Płynności AI 4D. Ta kompleksowa rama identyfikuje 24 specyficzne zachowania, które są przykładem bezpiecznej i efektywnej współpracy człowieka z AI. Na potrzeby tego wstępnego badania, Anthropic skupił się na 11 zachowaniach bezpośrednio obserwowalnych w interfejsie czatu Claude.ai. Pozostałe 13, które obejmują kluczowe aspekty, takie jak uczciwość w kwestii roli AI w pracy czy rozważanie konsekwencji wygenerowanych przez AI wyników, występują poza czatem i zostaną ocenione w przyszłych badaniach jakościowych.

Korzystając z narzędzia analitycznego chroniącego prywatność, zespół badawczy skrupulatnie przestudiował 9 830 wieloetapowych rozmów na Claude.ai w ciągu 7 dni w styczniu 2026 roku. Ten obszerny zbiór danych zapewnił solidną podstawę do pomiaru obecności lub braku 11 obserwowalnych zachowań płynności, co doprowadziło do stworzenia Indeksu Płynności AI. Indeks oferuje migawkę obecnych wzorców współpracy i podstawę do śledzenia ich ewolucji w miarę postępów modeli AI.

Siła iteracji i dopracowywania w interakcji z AI

Jednym z najbardziej przekonujących wniosków z Indeksu Płynności AI jest silna korelacja między iteracją i dopracowywaniem a niemal wszystkimi innymi zachowaniami świadczącymi o płynności w AI. Badanie wykazało, że 85,7% rozmów dotyczyło użytkowników, którzy opierali się na poprzednich wymianach, aby udoskonalić swoją pracę, zamiast po prostu akceptować początkową odpowiedź. Te iteracyjne rozmowy wykazywały znacznie wyższe wskaźniki innych zachowań płynności, efektywnie podwajając biegłość obserwowaną w szybkich, zwrotnych czatach.

Wpływ iteracji na zachowania płynności AI

Wskaźnik behawioralnyRozmowy z iteracją i dopracowywaniem (n=8,424)Rozmowy bez iteracji i dopracowywania (n=1,406)Współczynnik wzrostu (iteracyjne vs. nieiteracyjne)
Kwestionowanie rozumowania Claude'aHighLow5.6x
Identyfikowanie brakującego kontekstuHighLow4x
Wyjaśnianie celuHighMedium~2x
Określanie formatuHighMedium~2x
Podawanie przykładówHighMedium~2x
Średnia liczba dodatkowych zachowań płynności2.671.332x

Tabela: Ilustrująca zwiększoną częstość występowania zachowań płynności w rozmowach z iteracją i dopracowywaniem.

Ten 'efekt iteracji i dopracowywania' podkreśla znaczenie traktowania AI jako partnera do myślenia, a nie tylko delegata zadań. Użytkownicy, którzy aktywnie angażują się w dialog, kwestionując i dopracowując swoje zapytania, znacznie częściej krytycznie oceniają wyniki AI, kwestionują jej rozumowanie i identyfikują kluczowy brakujący kontekst. Jest to zgodne z koncepcją przepływów pracy agentowych, gdzie nadzór ludzki i iteracyjne informacje zwrotne prowadzą do lepszych wyników, jak to omówiono w dyskusjach dotyczących platform takich jak GitHub Agentic Workflows.

Miecz obosieczny tworzenia artefaktów AI

Podczas gdy iteracja zwiększa ogólną płynność, raport ujawnił subtelny wzorzec, gdy użytkownicy proszą AI o wytworzenie artefaktów, takich jak kod, dokumenty czy narzędzia interaktywne. Te rozmowy, stanowiące 12,3% próbki, pokazały, że użytkownicy stają się bardziej dyrektywni, ale zaskakująco mniej oceniający.

Podczas tworzenia artefaktów użytkownicy częściej wyjaśniali swoje cele (+14,7 punktu procentowego), precyzowali formaty (+14,5 pp) i dostarczali przykłady (+13,4 pp). Jednak ta zwiększona dyrektywność nie przełożyła się na większą przenikliwość. W rzeczywistości użytkownicy znacznie rzadziej identyfikowali brakujący kontekst (-5,2 pp), sprawdzali fakty (-3,7 pp) lub kwestionowali rozumowanie modelu (-3,1 pp). Ten trend jest szczególnie niepokojący, biorąc pod uwagę, że złożone zadania, często związane z tworzeniem artefaktów, to obszar, w którym modele AI takie jak Claude Opus 4.6 lub nawet zaawansowane modele takie jak GPT-5 (gdyby istniał w powszechnym użyciu, choć link wskazuje na przyszłą lub hipotetyczną wersję) najczęściej napotykają trudności.

To zjawisko można przypisać dopracowanym, funkcjonalnie wyglądającym wynikom, które AI często generuje, co może usypiać użytkowników w fałszywym poczuciu kompletności. Niezależnie od tego, czy chodzi o projektowanie interfejsu użytkownika, czy sporządzanie analizy prawnej, zdolność do krytycznego analizowania wyników AI pozostaje najważniejsza. W miarę jak modele AI stają się bardziej zaawansowane, rośnie ryzyko bezkrytycznej akceptacji pozornie doskonałych wyników, co sprawia, że umiejętności oceny są cenniejsze niż kiedykolwiek.

Rozwijanie własnej płynności w AI

Dobrą wiadomością jest to, że płynność w AI, jak każda umiejętność, może być rozwijana. Na podstawie swoich ustaleń Anthropic oferuje praktyczne porady dla użytkowników, którzy chcą poprawić swoją współpracę człowieka z AI:

  1. Pozostawanie w Rozmowie: Traktuj początkowe odpowiedzi AI jako punkt wyjścia. Zadawaj pytania uzupełniające, kwestionuj założenia i iteracyjnie doprecyzowuj swoje prośby. To aktywne zaangażowanie jest najsilniejszym predyktorem innych zachowań płynności.
  2. Kwestionowanie Dopracowanych Wyników: Kiedy model AI generuje coś, co wygląda na kompletne i dokładne, zatrzymaj się i zastosuj krytyczne myślenie. Zapytaj: Czy to jest naprawdę dokładne? Czy czegoś brakuje? Czy rozumowanie jest spójne? Nie pozwól, aby wizualne dopracowanie przysłoniło krytyczną ocenę.
  3. Ustalanie Warunków Współpracy: Aktywnie określ, w jaki sposób chcesz, aby AI z tobą współdziałała. Wyraźne instrukcje, takie jak "Kwestionuj, jeśli moje założenia są błędne", "Przeprowadź mnie przez swoje rozumowanie" lub "Powiedz mi, co jest dla ciebie niepewne", mogą fundamentalnie zmienić dynamikę, wspierając bardziej przejrzystą i solidną współpracę.

Punkt odniesienia dla przyszłego rozwoju umiejętności AI

Ważne jest, aby uznać ograniczenia tego wstępnego badania. Próba, składająca się z użytkowników Claude.ai prowadzących wieloetapowe rozmowy z początku 2026 roku, prawdopodobnie skłania się ku wczesnym adaptatorom już zaznajomionym z AI, a nie do szerszej populacji. Badanie koncentruje się również wyłącznie na obserwowalnych zachowaniach w interfejsie czatu, pomijając kluczowe zachowania etyczne i odpowiedzialnego użytkowania, które występują zewnętrznie. Te zastrzeżenia oznaczają, że Indeks Płynności AI stanowi punkt odniesienia dla tej konkretnej populacji i punkt wyjścia do głębszych, długoterminowych badań.

Mimo tych ograniczeń, Indeks Płynności AI stanowi znaczący krok w kierunku zrozumienia i wspierania efektywnej współpracy człowieka z AI. W miarę ewolucji narzędzi AI, wyposażenie użytkowników w umiejętności krytycznego, iteracyjnego i odpowiedzialnego zaangażowania będzie kluczowe dla wykorzystania pełnego potencjału tej technologii, jednocześnie minimalizując jej ryzyka. Ten wstępny raport stanowi podstawę dla przyszłych badań, obiecując kierować zarówno użytkowników, jak i deweloperów w budowaniu bardziej płynnej i korzystnej przyszłości napędzanej AI.

Często zadawane pytania

What is the Anthropic AI Fluency Index?
The Anthropic AI Fluency Index is a new metric developed by Anthropic to assess how well individuals are developing skills to effectively use AI tools. Moving beyond mere adoption, the index tracks 11 directly observable behaviors that represent safe and effective human-AI collaboration, based on the 4D AI Fluency Framework. It aims to provide a baseline measurement of user proficiency, helping to understand how these critical skills evolve as AI technology becomes more integrated into daily life. The initial study analyzed nearly 10,000 conversations on Claude.ai to identify key patterns in user interaction and skill development.
How is AI fluency measured by Anthropic?
AI fluency is measured by tracking the presence or absence of 11 specific behavioral indicators during user interactions with Claude on Claude.ai. These indicators are derived from the broader 4D AI Fluency Framework, which defines 24 behaviors of safe and effective human-AI collaboration. For the initial study, Anthropic utilized a privacy-preserving analysis tool to examine 9,830 multi-turn conversations over a 7-day period. Behaviors like 'iteration and refinement,' 'questioning reasoning,' and 'identifying missing context' were observed and classified as present or absent within each conversation, providing a quantitative baseline for AI proficiency.
What is the 'iteration and refinement effect' in AI fluency?
The 'iteration and refinement effect' refers to the strong correlation found between users who build on previous exchanges to refine their work with AI, and the display of other key AI fluency behaviors. Conversations exhibiting iteration and refinement—meaning users don't just accept the first AI response but actively engage in follow-up questions, pushbacks, and adjustments—showed significantly higher rates of other fluency indicators. For instance, these iterative conversations were 5.6 times more likely to involve users questioning Claude's reasoning and 4 times more likely to identify missing context, underscoring the importance of sustained, dynamic engagement for developing AI proficiency.
Why do users become less evaluative when creating artifacts with AI?
Anthropic's research found that when users engage AI to create artifacts such as code, documents, or interactive tools, they tend to become more directive but paradoxically less evaluative. This means users are more likely to clarify goals and provide examples, but less likely to question the model's reasoning, identify missing context, or check facts. Possible explanations include the polished appearance of AI-generated outputs, which might lead users to prematurely trust the results, or the nature of certain tasks where functional aesthetics might outweigh factual precision. Regardless, this pattern highlights a critical area for improvement in human-AI collaboration, emphasizing the need for continued critical assessment even with seemingly complete outputs.
How can individuals improve their AI fluency according to Anthropic?
Anthropic suggests three key areas for individuals to enhance their AI fluency. First, 'staying in the conversation' means treating initial AI responses as starting points, asking follow-up questions, and actively refining outputs. Second, 'questioning polished outputs' involves critically evaluating AI-generated artifacts for accuracy, completeness, and logical soundness, even if they appear perfect. Third, 'setting the terms of the collaboration' encourages users to explicitly instruct AI on how to interact, for example, by asking it to explain its reasoning or push back on assumptions. These practices aim to foster deeper engagement and critical thinking in human-AI interactions.
What are the limitations of the AI Fluency Index study?
The initial AI Fluency Index study has several important limitations. The sample is restricted to Claude.ai users engaging in multi-turn conversations during a single week in January 2026, which likely skews towards early adopters and may not represent the broader population. The study also only assesses 11 out of 24 behaviors from the 4D AI Fluency Framework, focusing solely on directly observable interactions within the chat interface, thus missing crucial ethical and responsible use behaviors that occur externally. Furthermore, the binary classification of behaviors might overlook nuanced demonstrations, and it cannot account for 'implicit behaviors' where users might mentally evaluate AI outputs without verbalizing their critical assessment in the chat.

Bądź na bieżąco

Otrzymuj najnowsze wiadomości o AI na swoją skrzynkę.

Udostępnij