原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一下,你正在评估一名学生的表现。在过去,如果你让学生解一道数学题,他们总会给出完全相同的答案。你可以给他们一个简单的分数:“10 分满分”。这就是我们过去测试计算机软件的方式:我们让用户点击一个按钮,如果它起作用,就得一分;如果不起作用,就不得分。这种系统是可预测的,就像一台自动售货机,只要你按下"A1",它总会给你一瓶汽水。
但如今,计算机已有所不同。它们使用人工智能(AI)。AI 不是一台自动售货机;它更像一位健谈且富有创造力的朋友。如果你向这位朋友问同一个问题两次,根据他们的心情、一天中的时间或刚才谈论的内容,他们可能会给出两个略有不同的答案。
根据这篇论文,问题在于我们仍在用旧的“自动售货机”测试来评估这位“健谈的朋友”。这行不通。旧测试假设计算机总会做同样的事情,但 AI 是混乱的、不可预测的,并且会随时间变化。
为了解决这个问题,作者 Harish Vijayakumar 提出了一种衡量 AI 使用感受的新方法。他称之为ADUX-Stat。该系统不再给出单一数值,而是使用三种“工具”来理解 AI 的“个性”。
以下是这三种工具如何运作,使用简单的类比说明:
1. “惊喜度计”(交互熵指数)
问题:有时 AI 既有帮助又一致;有时则狂野且不可预测。如果你向语音助手询问天气,而它每次给出的答案都不同,你就会感到沮丧。
解决方案:该工具衡量 AI 让你感到“惊喜”的程度。
- 低惊喜(好):AI 像一位可靠的图书管理员。你请求一本书,它总是递给你正确的那一本。
- 高惊喜(差或混乱):AI 像一位魔术师,从帽子里随机变出兔子。有时很棒,有时则是胡言乱语。
该工具不仅仅说“它起作用了”;它衡量从你的视角来看,AI 的行为变化有多大。
2. “时间旅行罗盘”(时间漂移系数)
问题:AI 并非静止不变。它会学习。当你初次接触 AI 时,它可能表现得很糟糕,但随着你与它交谈增多,它会变得更聪明。或者,它可能起初表现很好,但随着时间推移变得困惑而逐渐变差。
解决方案:该工具观察 AI 随时间的表现,就像观看一部电影,而不是看一张单张照片。
- 正向漂移:AI 正在变好,就像一个努力学习、每周成绩都进步的学生。
- 负向漂移:AI 正在变差,就像一辆汽车引擎在使用几个月后开始发出奇怪噪音。
这有助于我们看清 AI 是“慢学习者”还是“缓慢衰退者”,而单一测试永远无法告诉你这一点。
3. “诚实气泡”(贝叶斯可用性置信分数)
问题:旧测试给你一个单一数字,比如"85% 的满意度”。但这个数字显得过于精确。这就像说“我正好是 5 英尺 10.00 英寸高”。实际上,测量存在误差,而对于 AI 而言,不确定性很大。
解决方案:该工具给你一个范围,而不是单一数字。这就像说“我可能在 5 英尺 9 英寸到 5 英尺 11 英寸之间”。
- 它使用一种特殊的数学方法(贝叶斯统计)来承认:“我们不是 100% 确定,但这是最可能的范围。”
- 如果你没有太多数据,范围就会很宽(诚实地承认不知道);如果你有很多数据,范围就会变窄(更加自信)。
这阻止了我们假装自己比实际知道的更多。
他们如何测试它
作者尚未在真实人群中进行测试。相反,他进行了一次“思想实验”。他设想了这三种工具如何应用于五种不同类型的 AI 产品:
- 聊天机器人:他预测它们会有较高的“惊喜度”,因为它们可以说出许多不同的内容。
- 推荐引擎(如 Netflix):他预测它们会随着学习你的喜好而随时间变好(“正向漂移”)。
- 表单填充工具:他预测它们会有较低的“惊喜度”,因为它们只是填充已知的数据字段。
核心结论
这篇论文认为,我们需要停止将 AI 视为简单的机器。我们需要新的工具,以理解 AI 是不可预测的、随时间变化的,并且具有不确定性。
作者承认,这只是一张新地图;他尚未与真实的旅行者踏上旅程。他希望未来研究人员能使用这三种工具,用真实人群实际测试 AI 产品,这样我们最终才能以真正的方式衡量与机器交谈的体验:这是一场动态的、不断演进的对话,而不是一次固定的按钮按压。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。