Toward a Unified Framework for Collaborative Design of Human-AI Interaction

想象一下，你正在与一位非常聪明、但略带“读心”能力的助手合作。这位助手能听到你的声音，看到你指向哪里，甚至能追踪你的视线。其目标是让助手准确理解你想要做什么。

然而，存在一个重大问题：助手常常猜错，而且由于它是一个“黑箱”，你完全不知道它为何会做出那样的猜测。你可能会说“把它变大”，指向一个按钮，并看着一张图片，但助手却决定把图片变大，而不是按钮。你感到沮丧，失去信任，并觉得自己失去了控制权。

本文提出了一种构建人机协作团队的新方法。作者认为，不应将助手的“猜测”、它的“解释”以及你的“控制”视为三个独立的问题，而必须将它们作为一个统一的系统共同构建。

以下是该框架分解为三个简单部分，并采用主厨与副主厨的类比：

1. “完美聆听”（多模态对齐）

概念：系统需要结合你的声音、手势和视线，以获取正确的意图。
类比：想象一位主厨（AI）试图猜测副主厨（你）想要什么。如果副主厨一边说“切洋葱”一边指向胡萝卜，一个糟糕的系统可能会切胡萝卜。而一个好的系统（多模态对齐）会聆听声音、观察手指、检查视线，从而意识到：“啊，他们说了洋葱但指向了胡萝卜；他们大概是指洋葱。”
论文主张：如果 AI 在最初阶段就把这个“聆听”环节搞错了，其他一切都无关紧要。你无法解释一个错误的猜测，如果你不知道哪里被误解了，也就无法修正它。

2. “即时食谱卡”（以交互为中心的可解释性）

概念：AI 不应仅仅执行任务；它必须立即向你展示为何这样做，使用图像、文本或声音。
类比：主厨不应只是默默地切错蔬菜，而应停下来，举起一张卡片，上面写着：“我正在切胡萝卜，因为你指向了它们（85% 匹配），尽管你说的是‘洋葱’。”
论文主张：这种解释发生在行动进行的同时，而非事后。它将交互从令人困惑的谜团转变为清晰的对话。如果 AI 说：“我正在调整这个按钮的大小，因为你说‘调整大小’并看着它”，你就能立刻知道它是对是错。

3. “安全网”（保留主体性的机制）

概念：你必须始终拥有立即说“是”、“否”或“改一下”的权力。
类比：即使主厨是天才，你仍是老板。如果主厨开始切胡萝卜，你可以立即说：“停！我指的是洋葱！”论文建议，当你纠正主厨时，系统不应只是服从；它还应从你的纠正中学习，以便下次改进。
论文主张：这让你保持主导地位。它将单向命令转变为双向协商。如果 AI 犯错，你修正它，AI 就会学到：“哦，下次如果他们指向 X 但说 Y，我应该请求澄清。”

它们如何协同工作（“恶性循环”与“良性循环”）

论文认为，这三个部分就像一张三条腿的凳子。如果一条腿断了，整个东西就会倒塌。

如果“聆听”糟糕：AI 会认为你想要胡萝卜。
如果“解释”缺失：你不知道它为何切胡萝卜，因此感到困惑。
如果“控制”缺失：你无法阻止它，从而失去信任。

但如果它们协同工作：AI 能良好聆听，清晰地解释其逻辑（“我在切胡萝卜是因为你的手指”），并允许你纠正它（“不，是洋葱！”）。AI 随后会从该纠正中学习。

论文中的现实世界示例

作者通过两个故事测试了这一想法：

设计网站：一位设计师一边说“把它变大”一边指向一个按钮。AI 结合声音、指向和视线来调整按钮的大小，而不是整个页面。它显示一条小注：“因你的声音和手指而调整按钮大小。”随后设计师可以说：“实际上，调整为 120%"，AI 随即更新。
仓库机器人：一名工人在嘈杂的仓库中大喊“停！”，同时看着特定区域。机器人结合喊声与工人的视线，在恰好 2 米处停下。它显示一条全息注：“在此处停下是因为你看向了 2 米区域。”如果工人说“不，停在 1 米处”，机器人会停下，确认更改，并记住此偏好以供下次使用。

“但是……"（局限性）

作者诚实地指出了他们尚未完成的内容：

这是蓝图，而非完工的房屋：他们提出了这一想法，并展示了它在故事中应如何运作，但尚未构建一个真实的、可运行的系统来证明它。
传感器可能失效：如果阳光太刺眼，视线追踪可能会失败。如果仓库太吵，语音识别可能会失败。如果“聆听”部分失效，“解释”部分可能会对你撒谎，这是危险的。
速度与清晰度：在快节奏的紧急情况下，停下来阅读解释可能太慢。论文承认，在速度比理解更重要的瞬间决策中，该框架可能不适用。

简而言之：论文主张，为了让 AI 成为真正的合作伙伴，它必须仔细聆听、即时清晰地解释其思考过程，并允许我们立即纠正它。我们不能将“解释”作为事后补充；它们必须被构建为 AI 与我们互动的核心部分。