Code Velocity
AI 研究

AI 流畅度指数:衡量人机协作技能

·7 分钟阅读·Anthropic·原始来源
分享
图示AI流畅度和人机协作的概念,并带有数据点。

title: "AI 流畅度指数:衡量人机协作技能" slug: "fluency-index" date: "2026-03-03" lang: "zh" source: "https://www.anthropic.com/research/AI-fluency-index" category: "AI 研究" keywords:

  • AI 流畅度指数
  • Anthropic 研究
  • 人机协作
  • AI 技能发展
  • 迭代和精炼
  • AI 作品创作
  • AI 批判性评估
  • 4D AI 流畅度框架
  • Claude.ai 使用
  • AI 用户行为
  • 负责任的 AI 使用
  • AI 熟练度 meta_description: "Anthropic 新推出的 AI 流畅度指数衡量关键的人机协作技能,强调迭代和批判性评估对于有效使用 AI 的重要性。" image: "/images/articles/fluency-index.png" image_alt: "图示AI流畅度和人机协作的概念,并带有数据点。" quality_score: 94 content_score: 93 seo_score: 95 companies:
  • Anthropic schema_type: "NewsArticle" reading_time: 7 faq:
  • question: "Anthropic AI 流畅度指数是什么?" answer: "Anthropic AI 流畅度指数是 Anthropic 开发的一项新指标,用于评估个人掌握有效使用 AI 工具的技能程度。该指数超越了单纯的采纳,基于 4D AI 流畅度框架,追踪 11 种可直接观察的行为,这些行为代表了安全有效的人机协作。它旨在提供用户熟练度的基线测量,帮助了解随着 AI 技术日益融入日常生活,这些关键技能如何演变。初步研究分析了 Claude.ai 上近 10,000 次对话,以识别用户交互和技能发展的关键模式。"
  • question: "Anthropic 如何衡量 AI 流畅度?" answer: "AI 流畅度是通过追踪用户与 Claude.ai 上的 Claude 互动过程中 11 个特定行为指标的存在与否来衡量的。这些指标源自更广泛的 4D AI 流畅度框架,该框架定义了 24 种安全有效的人机协作行为。在初步研究中,Anthropic 利用隐私保护分析工具,对 2026 年 1 月份为期 7 天的 9,830 次多轮对话进行了检查。观察并分类了诸如'迭代和精炼'、'质疑推理'和'识别缺失上下文'等行为在每次对话中是否存在,从而为 AI 熟练度提供了定量基线。"
  • question: "AI 流畅度中的'迭代和精炼效应'指什么?" answer: "‘迭代和精炼效应’指的是用户在与 AI 互动中,通过在前一次交流的基础上进行改进来完善其工作,与展现其他关键 AI 流畅度行为之间发现的强烈关联。展现迭代和精炼的对话——这意味着用户不只是接受 AI 的第一个回应,而是积极参与后续提问、反驳和调整——显示出其他流畅度指标的发生率显著更高。例如,这些迭代对话中,用户质疑 Claude 推理的可能性高出 5.6 倍,识别缺失上下文的可能性高出 4 倍,这凸显了持续、动态的参与对于发展 AI 熟练度的重要性。"
  • question: "为什么用户在使用 AI 创作作品时变得不那么善于评估?" answer: "Anthropic 的研究发现,当用户使用 AI 创作代码、文档或交互式工具等作品时,他们倾向于变得更具指导性,但矛盾的是,评估能力却下降了。这意味着用户更有可能澄清目标和提供示例,但不太可能质疑模型的推理、识别缺失上下文或核查事实。可能的解释包括 AI 生成输出的精美外观,这可能导致用户过早地信任结果;或者某些任务的性质,其中功能美观可能比事实精确度更重要。无论如何,这种模式凸显了人机协作中一个关键的改进领域,强调即使对于看似完整的输出也需要持续的批判性评估。"
  • question: "根据 Anthropic 的说法,个人如何提高他们的 AI 流畅度?" answer: "Anthropic 建议个人通过三个关键领域提升其 AI 流畅度。首先,'保持对话'意味着将 AI 的初始回应视为起点,提出后续问题,并积极完善输出。其次,'质疑精美输出'涉及批判性地评估 AI 生成的作品的准确性、完整性和逻辑合理性,即使它们看起来很完美。第三,'设定协作条款'鼓励用户明确指示 AI 如何互动,例如,要求它解释其推理或反驳其假设。这些做法旨在促进人机交互中更深层次的参与和批判性思维。"
  • question: "AI 流畅度指数研究的局限性是什么?" answer: "初步的 AI 流畅度指数研究存在几个重要的局限性。样本仅限于 2026 年 1 月份一周内参与多轮对话的 Claude.ai 用户,这可能偏向于早期采用者,不一定能代表更广泛的人群。该研究还仅评估了 4D AI 流畅度框架中 24 种行为中的 11 种,只关注聊天界面内可直接观察的互动,从而遗漏了外部发生的关键伦理和负责任使用行为。此外,行为的二元分类可能忽略细微的表现,并且无法解释'隐含行为',即用户可能在不通过聊天表达批判性评估的情况下在心理上评估 AI 输出。"

# 熟练为先:Anthropic 衡量协作技能的 AI 指数

AI 工具快速融入日常生活的速度令人惊叹。然而,随着 AI 变得无处不在,一个关键问题浮出水面:用户仅仅是采纳这些工具,还是正在培养利用它们所需技能以有效发挥其作用?负责任 AI 开发领域的领导者 Anthropic 旨在通过其开创性的 **AI 流畅度指数** 来回答这个问题,这是一份旨在衡量和追踪人机协作技能演变的新报告。

Anthropic 此前的教育报告阐明了大学生和教育工作者如何利用 Claude 等高级模型完成从报告生成到课程规划等各种任务。然而,这些研究主要关注用户在*做什么*。AI 流畅度指数则更深入地探究个人与 AI 交互的*效果如何*,引入了一个理解这项变革性技术“流畅度”的框架。

## 解码 AI 流畅度:4D 框架

为了量化 AI 流畅度,Anthropic 与 Rick Dakan 教授和 Joseph Feller 教授合作开发了 **4D AI 流畅度框架**。这个综合框架识别了 24 种具体行为,它们是安全有效的人机协作的典范。为了这项初步研究,Anthropic 专注于 Claude.ai 聊天界面内可直接观察的 11 种行为。其余 13 种行为,包括如对 AI 在工作中扮演的角色保持诚实或考虑 AI 生成输出的后果等关键方面,发生在聊天之外,将在未来的定性研究中进行评估。

研究团队使用隐私保护分析工具,在 2026 年 1 月份为期 7 天的时间里,细致地研究了 Claude.ai 上的 9,830 次多轮对话。这份庞大的数据集为衡量 11 种可观察到的流畅度行为的存在与否提供了坚实的基线,从而创建了 AI 流畅度指数。该指数提供了当前协作模式的快照,并为追踪 AI 模型发展过程中这些模式的演变奠定了基础。

## AI 交互中迭代和精炼的力量

AI 流畅度指数最引人注目的发现之一是**迭代和精炼**与几乎所有其他 AI 流畅度行为之间存在强烈的关联。研究显示,85.7% 的对话涉及用户在前一次交流的基础上进行改进以完善其工作,而不是简单地接受最初的回复。这些迭代对话展现出显著更高的其他流畅度行为发生率,有效地使快速、来回交流中的熟练度翻了一番。

### 迭代对 AI 流畅度行为的影响

| 行为指标                                | 包含迭代和精炼的对话 (n=8,424) | 不包含迭代和精炼的对话 (n=1,406) | 提升因子(迭代 vs. 非迭代) |
| :-------------------------------------- | :--------------------------------: | :--------------------------------: | :-------------------------: |
| 质疑 Claude 的推理                      | 高                                 | 低                                 | 5.6 倍                      |
| 识别缺失上下文                          | 高                                 | 低                                 | 4 倍                        |
| 澄清目标                                | 高                                 | 中                                 | ~2 倍                       |
| 指定格式                                | 高                                 | 中                                 | ~2 倍                       |
| 提供示例                                | 高                                 | 中                                 | ~2 倍                       |
| **平均额外流畅度行为**                  | **2.67**                           | **1.33**                           | **2 倍**                    |

*表格:展示了在包含迭代和精炼的对话中,流畅度行为的发生率增加。*

这种“迭代和精炼效应”强调了将 AI 视为思想伙伴而非单纯的任务委托者的重要性。积极参与对话、反驳并完善查询的用户,更有可能批判性地评估 AI 输出、质疑其推理并识别关键的缺失上下文。这与以人类监督和迭代反馈推动更好结果的代理工作流概念一致,正如在讨论 [GitHub Agentic Workflows](/zh/github-agentic-workflows) 等平台时所探讨的那样。

## AI 作品创作的双刃剑

虽然迭代提升了整体流畅度,但报告揭示了一个细微的模式,即当用户提示 AI 生成**作品**(如代码、文档或交互式工具)时。这些对话(占样本的 12.3%)显示用户变得更具*指导性*,但令人惊讶的是,*评估能力*却下降了。

在创作作品时,用户更有可能澄清目标(+14.7 个百分点)、指定格式(+14.5pp)和提供示例(+13.4pp)。然而,这种指导性的增加并未转化为更高的辨别力。事实上,用户识别缺失上下文的可能性显著降低(-5.2pp)、核查事实的可能性降低(-3.7pp),或质疑模型推理的可能性降低(-3.1pp)。考虑到复杂任务(通常与作品创作相关)是 [Claude Opus 4.6](/zh/claude-opus-4-6) 或甚至像 GPT-5 这样先进的模型(如果它已经面世,尽管链接指向未来或假设版本)最容易遇到困难的地方,这种趋势尤其令人担忧。

这种现象可能归因于 AI 经常生成的精美、功能性强的输出,这可能让用户产生一种虚假的完成感。无论是设计用户界面还是起草法律分析,批判性地审查 AI 输出的能力仍然至关重要。随着 AI 模型变得越来越复杂,对看似完美的输出不加批判接受的风险随之增加,这使得评估技能比以往任何时候都更有价值。

## 培养你的 AI 流畅度

好消息是,AI 流畅度像任何技能一样,可以培养。根据他们的发现,Anthropic 为希望增强人机协作的用户提供了实用建议:

1.  **保持对话:** 将 AI 的初始回应视为起点。提出后续问题,挑战假设,并迭代完善你的请求。这种积极参与是预测其他流畅度行为的最强指标。
2.  **质疑精美输出:** 当 AI 模型生成看起来完整且准确的内容时,请暂停并运用批判性思维。扪心自问:这真的准确吗?是否有遗漏?推理是否站得住脚?不要让视觉上的精美压倒批判性评估。
3.  **设定协作条款:** 主动定义你希望 AI 如何与你互动。明确的指令,例如“如果我的假设有误,请反驳我”、“请向我解释你的推理过程”,或者“告诉我你不确定什么”,可以从根本上改变动态,促进更透明、更稳健的协作。

## 未来 AI 技能发展的基线

重要的是要承认这项初步研究的局限性。样本仅包含 2026 年初的 Claude.ai 多轮对话用户,这可能偏向于已经熟悉 AI 的早期采用者,而非更广泛的人群。该研究也只关注聊天界面内可观察到的行为,忽略了外部发生的关键伦理和负责任使用行为。这些注意事项意味着 AI 流畅度指数为*这个特定人群*提供了一个基线,并为更深入的纵向研究奠定了基础。

尽管存在这些局限性,AI 流畅度指数的推出,标志着在理解和促进有效人机协作方面迈出了重要一步。随着 AI 工具的不断发展,赋予用户批判性、迭代性和负责任地参与的技能,将是充分发挥这项技术潜力同时降低其风险的关键。这份初步报告为未来的研究奠定了基础,有望指导用户和开发者构建一个更流畅、更有益的 AI 驱动未来。

常见问题

What is the Anthropic AI Fluency Index?
The Anthropic AI Fluency Index is a new metric developed by Anthropic to assess how well individuals are developing skills to effectively use AI tools. Moving beyond mere adoption, the index tracks 11 directly observable behaviors that represent safe and effective human-AI collaboration, based on the 4D AI Fluency Framework. It aims to provide a baseline measurement of user proficiency, helping to understand how these critical skills evolve as AI technology becomes more integrated into daily life. The initial study analyzed nearly 10,000 conversations on Claude.ai to identify key patterns in user interaction and skill development.
How is AI fluency measured by Anthropic?
AI fluency is measured by tracking the presence or absence of 11 specific behavioral indicators during user interactions with Claude on Claude.ai. These indicators are derived from the broader 4D AI Fluency Framework, which defines 24 behaviors of safe and effective human-AI collaboration. For the initial study, Anthropic utilized a privacy-preserving analysis tool to examine 9,830 multi-turn conversations over a 7-day period. Behaviors like 'iteration and refinement,' 'questioning reasoning,' and 'identifying missing context' were observed and classified as present or absent within each conversation, providing a quantitative baseline for AI proficiency.
What is the 'iteration and refinement effect' in AI fluency?
The 'iteration and refinement effect' refers to the strong correlation found between users who build on previous exchanges to refine their work with AI, and the display of other key AI fluency behaviors. Conversations exhibiting iteration and refinement—meaning users don't just accept the first AI response but actively engage in follow-up questions, pushbacks, and adjustments—showed significantly higher rates of other fluency indicators. For instance, these iterative conversations were 5.6 times more likely to involve users questioning Claude's reasoning and 4 times more likely to identify missing context, underscoring the importance of sustained, dynamic engagement for developing AI proficiency.
Why do users become less evaluative when creating artifacts with AI?
Anthropic's research found that when users engage AI to create artifacts such as code, documents, or interactive tools, they tend to become more directive but paradoxically less evaluative. This means users are more likely to clarify goals and provide examples, but less likely to question the model's reasoning, identify missing context, or check facts. Possible explanations include the polished appearance of AI-generated outputs, which might lead users to prematurely trust the results, or the nature of certain tasks where functional aesthetics might outweigh factual precision. Regardless, this pattern highlights a critical area for improvement in human-AI collaboration, emphasizing the need for continued critical assessment even with seemingly complete outputs.
How can individuals improve their AI fluency according to Anthropic?
Anthropic suggests three key areas for individuals to enhance their AI fluency. First, 'staying in the conversation' means treating initial AI responses as starting points, asking follow-up questions, and actively refining outputs. Second, 'questioning polished outputs' involves critically evaluating AI-generated artifacts for accuracy, completeness, and logical soundness, even if they appear perfect. Third, 'setting the terms of the collaboration' encourages users to explicitly instruct AI on how to interact, for example, by asking it to explain its reasoning or push back on assumptions. These practices aim to foster deeper engagement and critical thinking in human-AI interactions.
What are the limitations of the AI Fluency Index study?
The initial AI Fluency Index study has several important limitations. The sample is restricted to Claude.ai users engaging in multi-turn conversations during a single week in January 2026, which likely skews towards early adopters and may not represent the broader population. The study also only assesses 11 out of 24 behaviors from the 4D AI Fluency Framework, focusing solely on directly observable interactions within the chat interface, thus missing crucial ethical and responsible use behaviors that occur externally. Furthermore, the binary classification of behaviors might overlook nuanced demonstrations, and it cannot account for 'implicit behaviors' where users might mentally evaluate AI outputs without verbalizing their critical assessment in the chat.

保持更新

将最新AI新闻发送到您的收件箱。

分享