Why Johnny Can't Use Agents: Industry Aspirations vs. User Realities with AI… — 通俗解释

想象一下，你刚买了一个全新的、高科技的机器人管家。公司的广告展示它完美地处理一切：为你规划整个假期、为老板制作演示文稿、研究你的下一步职业动向，而这一切发生时，你只需喝着咖啡悠闲放松。这款机器人被营销为"AI 智能体”（AI Agent）——一个能主动出击、为你办事的聪明伙伴。

但当你真正打开它并尝试使用时，情况却变得一团糟。你可能会感到困惑、沮丧，或者不确定这个机器人究竟是在帮忙，还是只是在制造更大的混乱。

这篇题为《为什么约翰尼（Johnny）无法使用智能体》的论文，正是调查了 AI 智能体光鲜的营销承诺与当今使用它们时的混乱现实之间的这一差距。研究人员提出了两个核心问题：

公司实际上在卖什么？（炒作）
当普通人尝试使用它们时会发生什么？（现实）

以下是他们研究发现的简要概述，使用了简单的类比。

1. 三种类型的“机器人管家”（炒作）

研究人员考察了 102 种被作为"AI 智能体”销售的不同产品，并根据公司声称它们能做什么，将其分为三类：

协调者（旅行代理）： 这些智能体本应外出、点击网站按钮、预订航班并为你填写表格。它们“协调”现实世界中的一系列操作。
创造者（艺术家）： 这些智能体本应为你制作东西，如演示文稿、网站或文档。它们专注于最终产品的外观和格式。
洞察生成器（研究员）： 这些智能体本应深入互联网，查找信息，并为你提供摘要或建议。它们是你个人的图书管理员和分析师。

2. 实验：让“约翰尼”接受测试

为了看看这些机器人是否真的有效，研究人员招募了 31 名普通人（他们称这个人物为“约翰尼”，以此致敬一项关于普通人为何无法使用加密技术的旧研究）。这些参与者熟悉聊天机器人，但从未使用过能够控制计算机的 AI 智能体。

他们给“约翰尼”布置了三项具体任务：

协调： 规划一次为期 3 天的假日旅行（预订航班和酒店）。
创造： 制作一个 10 分钟的演示文稿幻灯片。
洞察： 弄清楚如何花 2000 美元预算用于个人成长。

他们使用了两个流行的商业智能体（分别命名为 Operator 和 Manus），以观察人类的表现。

3. 五大难题（现实）

尽管参与者普遍对这项技术印象深刻，并且通常能够完成任务，但他们遇到了五大障碍，使得体验令人沮丧。

障碍一：“读心术”误解

类比： 想象你雇佣了一位新助理。你说：“给我做个三明治。”你期望的是火腿三明治。但助理端给你一碗面粉和一把刀，因为他们不知道你想要火腿。你感到恼火，但随即意识到你没有说明要“火腿”。
现实： 用户不知道应该给 AI 提供多少细节。有些人认为必须为机器人写一份完美的、分步的操作手册；另一些人则认为机器人能读心。由于 AI 没有解释它是如何思考的，用户感觉像是在用第一个提示词“赌博”。如果他们搞错了，机器人就会走上错误的道路，而用户则感到被困住。

障碍二：“相信我”的跳跃

类比： 你请一个陌生人帮你拿钱包，好让你系鞋带。他们说：“我马上回来”，然后拿着你的钱包跑掉了。你感到不安全。
现实： AI 智能体经常要求敏感信息（例如登录你的 Google 账户），或者在没有询问“你想要带泳池的房间还是带景观的房间？”的情况下就开始做决定（例如预订酒店）。用户觉得必须盲目信任机器人，但机器人并没有通过解释其选择或事先征求许可来赢得这种信任。

障碍三：“一刀切”的舞伴

类比： 想象和一个只懂一种舞蹈风格的舞伴跳舞。如果你想跳华尔兹，他们却试图跳霹雳舞。如果你想停下来，他们却继续旋转。
现实： 人们有不同的工作风格。有些人想承担繁重的工作，只需检查 AI 的成果；而另一些人则希望 AI 包办一切。这些智能体太急于“完成任务”，而不进行确认。如果用户想要暂停或改变计划，智能体往往不听劝阻，或者让人难以停止，让用户感觉自己失去了对舞蹈的控制。

障碍四：信息的“消防水龙”

类比： 你向朋友问路。他们不说“向左转”，而是给你做了一场关于街道历史、交通模式和天气的 20 分钟讲座，而当时你正在开车。
现实： 这些智能体非常健谈。它们展示了采取的每一个步骤、每一个搜索结果以及每一个思考过程。对某些用户来说，这很有帮助；但对其他人来说，这是令人难以承受的噪音。由于“日志”过于密集和混乱，很难找到重要部分。

障碍五：不知道自己卡住的机器人

类比： 你让 GPS 寻找路线。它陷入死循环，试图撞墙行驶，并不断说“重新计算”，却从不告诉你：“嘿，我过不去，你需要手动驾驶。”
现实： 当 AI 卡住时（例如尝试登录一个屏蔽机器人的网站），它往往没有意识到自己失败了。它只是冻结或一遍又一遍地重复相同的操作。它缺乏“自我意识”来说：“我卡住了，请帮帮我。”用户不得不自己找出错误，这违背了拥有智能体的初衷。

结论

该论文总结道，虽然 AI 智能体功能强大且能完成惊人的任务，但它们尚未准备好让普通人立即投入使用。

这项技术就像一台尚未装入带有方向盘、刹车或仪表盘的汽车的赛车引擎。行业正在销售引擎（执行任务的能力），但用户需要的是汽车（控制、信任和理解引擎的能力）。

除非这些智能体能够更好地理解人类的期望、解释其错误，并在出现问题时让我们重新掌控方向盘，否则“约翰尼”将继续难以有效地使用它们。

技术摘要：为何乔尼无法使用智能体：AI 智能体的行业愿景与用户现实

问题陈述
本文针对当前关于“AI 智能体”的定义、能力与可用性日益模糊的问题展开探讨。尽管技术行业将这些系统营销为能够自主执行多步骤任务智能伙伴，但业界对于终端用户实际如何与它们交互缺乏系统性的理解。此前对 AI 智能体的评估主要侧重于技术基准和可量化的理想指标（例如受控环境中的任务完成率），往往忽视了委托、监督和恢复等人为因素。作者认为，营销所宣称的能力往往与用户现实脱节，这种脱节造成了摩擦，阻碍了新手用户的有效采用。核心问题在于行业愿景（智能体被营销为能做什么）与用户现实（尝试使用它们完成广告任务时面临的挑战）之间的差距。

研究方法
本研究采用双管齐下的方法，调查行业框架与用户体验之间的脱节：

系统综述（研究问题 1）： 作者通过分析来自聚合目录（如 AI Agent Directory、Product Hunt）和网页搜索的 $N=102$ 款商业产品，构建了营销中 AI 智能体能力的分类体系。他们对营销材料进行了归纳式定性内容分析，将广告用例提炼为三大类：编排（代表用户在图形用户界面中执行操作）、创建（生成幻灯片或代码等结构化产物）和洞察（支持研究、综合与推荐）。
可用性评估（研究问题 2）： 作者对 $N=31$ 名参与者进行了“有声思维”可用性研究。参与者虽不常操作智能体系统，但却是生成式 AI 聊天机器人的频繁用户。他们尝试了上述三大分类中各一个代表性任务，使用了两个流行的商业智能体平台：OpenAI Operator 和 Manus。
- 任务： 假期规划（编排）、制作幻灯片（创建）、专业/个人成长津贴预算（洞察）。
- 流程： 每次会话持续约一小时，包括两次各 20 分钟的任务尝试，随后进行半结构化访谈。研究收集了屏幕/音频录音、系统可用性量表（SUS）评分和访谈转录稿。
- 分析： 数据采用反思性主题分析法进行分析，以识别反复出现的障碍和可用性挑战。

主要贡献
本文为人机交互（HCI）和人工智能领域做出了三项主要贡献：

营销能力的分类体系： 一个提炼后的框架，将行业设想的 AI 智能体用例归类为编排、创建和洞察，阐明了“智能体”这一标签目前在商业市场中的应用方式。
可用性障碍的实证识别： 描述了新手用户在与商业 AI 智能体交互时面临的五个关键可用性障碍，超越了简单的任务完成指标，转而评估委托与协作过程的质量。
设计与评估启示： 提出了一套针对智能体系统设计与评估的具体启示，包括特定的评估维度（例如干预频率、恢复时间、停滞/循环率），以补充现有的技术基准。

主要结果与发现
尽管参与者总体上成功完成了分配的任务，并报告了较高的系统可用性量表（SUS）评分（表明对实用性的总体印象良好），但研究揭示了阻碍最佳使用的显著摩擦点。作者识别出五个关键可用性障碍：

心智模型错位： 用户难以理解智能体的能力、提示词所需的详细程度以及智能体在执行过程中的角色。这导致了“提示词赌博”（不确定应指定多少细节）以及对“接管”（用户干预）等交互机制的困惑。用户往往是基于结果被动地构建心智模型，而非基于系统线索主动构建。
过早的信任假设： 智能体常在敏感情境下（例如处理凭证、制定旅行计划）预设信任，而未建立可信度或确认用户意图。用户对幻觉、密码管理以及智能体在未澄清个人偏好情况下擅自行动的倾向表示不信任。
协作风格不匹配： 智能体未能适应多样化的协作风格。一些用户希望深度参与并拥有细粒度的控制权（充当“思维伙伴”），而另一些用户则希望最小化参与。智能体往往表现为过于急切的执行工具，假设用户希望最小化监督，且缺乏有效的任务中途引导或错误恢复机制。
沟通过载： 用户在解析智能体输出时面临困难。关于进度可见性存在广泛的偏好差异；一些人认为详细的日志令人难以承受，而另一些人则感到缺乏必要的监督。沟通开销往往使得用户难以阐明意图或识别智能体在工作流中的位置。
元认知行为薄弱： 智能体缺乏评估自身进度、局限性或输出质量的能力。当智能体遇到错误或停滞时，它们往往无法识别阻塞，导致重复循环或静默失败。用户被迫弥补这些元认知缺口，常常难以从模糊的失败模式中恢复。

意义与主张
本文主张，从基于聊天的交互转向操作型智能体系统，从根本上改变了可用性界面。在聊天机器人中，糟糕的提示词可能导致次优的文本回复；而在智能体中，同样的歧义可能在用户干预之前，就触发耗时、耗资源的多步骤执行，并产生现实世界的副作用（例如预订航班、修改文件）。

作者认为，智能体系统的结构性需求——委托、监督、干预和恢复——不能仅靠期望更懂行的用户或更强大的模型来解决。相反，这些系统的设计必须明确解决已识别的障碍，具体包括：

根据用户对主动性和沟通的偏好进行校准。
提升智能体的自我评估与透明度（例如暴露置信度、检测停滞）。
支持非文本输入和精确的迭代机制。
重新定义评估指标，纳入以人为中心的维度，如干预频率和恢复时间。

研究结论指出，尽管当前的智能体展现出潜力，但行业愿景与新手终端用户的现实之间仍存在显著的可用性差距，这需要将设计重点从纯粹的能力转向协作可靠性。

Why Johnny Can't Use Agents: Industry Aspirations vs. User Realities with AI Agents