想象一下，你正在评估一名学生的表现。在过去，如果你让学生解一道数学题，他们总会给出完全相同的答案。你可以给他们一个简单的分数：“10 分满分”。这就是我们过去测试计算机软件的方式：我们让用户点击一个按钮，如果它起作用，就得一分；如果不起作用，就不得分。这种系统是可预测的，就像一台自动售货机，只要你按下"A1"，它总会给你一瓶汽水。

但如今，计算机已有所不同。它们使用人工智能（AI）。AI 不是一台自动售货机；它更像一位健谈且富有创造力的朋友。如果你向这位朋友问同一个问题两次，根据他们的心情、一天中的时间或刚才谈论的内容，他们可能会给出两个略有不同的答案。

根据这篇论文，问题在于我们仍在用旧的“自动售货机”测试来评估这位“健谈的朋友”。这行不通。旧测试假设计算机总会做同样的事情，但 AI 是混乱的、不可预测的，并且会随时间变化。

为了解决这个问题，作者 Harish Vijayakumar 提出了一种衡量 AI 使用感受的新方法。他称之为ADUX-Stat。该系统不再给出单一数值，而是使用三种“工具”来理解 AI 的“个性”。

以下是这三种工具如何运作，使用简单的类比说明：

1. “惊喜度计”（交互熵指数）

问题：有时 AI 既有帮助又一致；有时则狂野且不可预测。如果你向语音助手询问天气，而它每次给出的答案都不同，你就会感到沮丧。
解决方案：该工具衡量 AI 让你感到“惊喜”的程度。

低惊喜（好）：AI 像一位可靠的图书管理员。你请求一本书，它总是递给你正确的那一本。
高惊喜（差或混乱）：AI 像一位魔术师，从帽子里随机变出兔子。有时很棒，有时则是胡言乱语。
该工具不仅仅说“它起作用了”；它衡量从你的视角来看，AI 的行为变化有多大。

2. “时间旅行罗盘”（时间漂移系数）

问题：AI 并非静止不变。它会学习。当你初次接触 AI 时，它可能表现得很糟糕，但随着你与它交谈增多，它会变得更聪明。或者，它可能起初表现很好，但随着时间推移变得困惑而逐渐变差。
解决方案：该工具观察 AI 随时间的表现，就像观看一部电影，而不是看一张单张照片。

正向漂移：AI 正在变好，就像一个努力学习、每周成绩都进步的学生。
负向漂移：AI 正在变差，就像一辆汽车引擎在使用几个月后开始发出奇怪噪音。
这有助于我们看清 AI 是“慢学习者”还是“缓慢衰退者”，而单一测试永远无法告诉你这一点。

3. “诚实气泡”（贝叶斯可用性置信分数）

问题：旧测试给你一个单一数字，比如"85% 的满意度”。但这个数字显得过于精确。这就像说“我正好是 5 英尺 10.00 英寸高”。实际上，测量存在误差，而对于 AI 而言，不确定性很大。
解决方案：该工具给你一个范围，而不是单一数字。这就像说“我可能在 5 英尺 9 英寸到 5 英尺 11 英寸之间”。

它使用一种特殊的数学方法（贝叶斯统计）来承认：“我们不是 100% 确定，但这是最可能的范围。”
如果你没有太多数据，范围就会很宽（诚实地承认不知道）；如果你有很多数据，范围就会变窄（更加自信）。
这阻止了我们假装自己比实际知道的更多。

他们如何测试它

作者尚未在真实人群中进行测试。相反，他进行了一次“思想实验”。他设想了这三种工具如何应用于五种不同类型的 AI 产品：

聊天机器人：他预测它们会有较高的“惊喜度”，因为它们可以说出许多不同的内容。
推荐引擎（如 Netflix）：他预测它们会随着学习你的喜好而随时间变好（“正向漂移”）。
表单填充工具：他预测它们会有较低的“惊喜度”，因为它们只是填充已知的数据字段。

核心结论

这篇论文认为，我们需要停止将 AI 视为简单的机器。我们需要新的工具，以理解 AI 是不可预测的、随时间变化的，并且具有不确定性。

作者承认，这只是一张新地图；他尚未与真实的旅行者踏上旅程。他希望未来研究人员能使用这三种工具，用真实人群实际测试 AI 产品，这样我们最终才能以真正的方式衡量与机器交谈的体验：这是一场动态的、不断演进的对话，而不是一次固定的按钮按压。

技术摘要：人工智能时代的用户体验：通过统计视角重新思考评估指标

问题陈述

人工智能（AI）迅速融入面向消费者的数字产品，使得经典的用户体验（UX）评估框架在结构上已显不足。传统的指标，如系统可用性量表（SUS）、净推荐值（NPS）和任务完成率，是为确定性、基于规则的界面设计的，在这些界面中，相同的输入会产生相同的输出。相比之下，AI 中介的系统——包括对话代理、生成式界面和推荐引擎——作为随机、情境敏感且随时间变化的系统运行。在这些环境中，单个查询可能产生多个不同的响应，用户满意度是一种概率现象，而非固定状态。因此，现有的评估工具依赖于测试 - 重测可靠性和界面稳定性的假设，无法捕捉 AI 驱动的用户体验所固有的不可预测性和纵向演变。

方法论：ADUX-Stat 框架

为了弥补这一认识论差距，本文提出了自适应动态用户体验统计框架（ADUX-Stat）。该模型将可用性重新概念化，不再视为静态的标量分数，而是视为概率信号分布。该框架整合了三个原创的统计构念，旨在衡量 AI 界面行为的不同维度：

交互熵指数（IEI）：
- 目的： 从用户角度量化感知到的输出变异性程度。
- 机制： 借鉴香农的信息熵理论，IEI 将用户满意度响应视为离散响应空间上的概率分布。
- 公式： $IEI = -\sum p(r) \log_2 p(r)$ ，其中 $p(r)$ 是特定满意度评分 $r$ 的概率。
- 解读： 高 IEI 表明用户响应分布广泛（高不可预测性），而低 IEI 表明响应收敛（可预测性）。
时间漂移系数（TDC）：
- 目的： 衡量纵向交互会话中感知可用性的变化速率和方向。
- 机制： 将可用性操作化为时间序列变量，利用线性回归检测随着 AI 系统演变而出现的系统性改善或退化。
- 公式： 在方程 $U(t) = \beta_0 + \beta_1t + \epsilon(t)$ 中， $TDC = \beta_1$ ，其中 $U(t)$ 是时间 $t$ 时的平均可用性评分。
- 解读： 正的 $\beta_1$ 表示随时间推移 UX 改善；负的 $\beta_1$ 表示恶化。稳定的估计需要至少五个纵向测量点。
贝叶斯可用性置信分数（BUCS）：
- 目的： 用概率范围取代点估计范式，以承认测量不确定性。
- 机制： 采用 Beta-Binomial 模型进行任务完成评估。它利用观察数据更新先验分布（例如，无信息 Beta(1,1)），以生成后验分布。
- 输出： 报告后验分布的 95% 最高密度区间（HDI），提供可信的可用性值区间，而非单一的点估计。

主要结果（概念验证）

本文通过在五个 AI 产品类别中的概念应用验证了 ADUX-Stat：(1) 基于大语言模型（LLM）的对话助手，(2) 人工智能驱动的内容推荐引擎，(3) 生成式图像界面，(4) 语音助手，以及 (5) 智能表单自动补全系统。

IEI 区分效度： 该框架成功区分了不同类型的产品。对话助手和生成式图像界面表现出高 IEI 值（高不可预测性），推荐引擎显示中等 IEI，而结构化表单自动补全系统表现出低 IEI。
TDC 敏感性： 该模型与文献一致，表明对话 AI 在早期部署中常表现出负向漂移（由于学习曲线），随后随着个性化改善而转为正向漂移。推荐引擎显示出持续的正向漂移，而语音助手则表现出对环境变量的高度敏感性。
BUCS 不确定性传播： 当应用于任务完成数据时，BUCS 产生的 95% HDI 明显宽于使用相同数据（采用无信息先验）的频率学派置信区间。这反映了“诚实”的不确定性传播，随着模拟样本量的增加，区间以可预测的方式变窄。

意义与主张

本文主张 ADUX-Stat 为 UX 研究领域提供了必要的统计转向，解决了人机交互（HCI）、统计建模和 AI 产品评估交叉领域的关键差距。其意义由三个核心属性定义：

认识论诚实性： 与通过标量点估计暗示虚假精度的传统指标不同，ADUX-Stat 利用可信区间和熵分布来承认 AI 评估固有的不确定性。
时间敏感性： 该框架将 AI 系统中的 UX 质量视为轨迹而非静态状态，主张纵向测量对于有效评估在认识论上是必要的。
以用户感知为中心： IEI 衡量的是用户所体验的熵，而非从系统日志中计算得出的熵，在保持 UX 研究现象学导向的同时融入了统计严谨性。

作者将 ADUX-Stat 定位为一种可复现、可部署到实地的工作方法，可利用标准统计软件集成到现有工作流中，作为 SUS 等成熟工具的补充。

局限性与未来方向

本文对其当前范围保持谦逊立场。它明确指出，所呈现的验证是概念性的，不能替代针对真实用户群体的受控实验研究。作者指出，未来的工作必须：

建立跨产品类别的 IEI、TDC 和 BUCS 规范范围。
开发标准化的 elicitation（引出/获取）程序。
评估评估者群体间的评分者信度。
进行实证验证，以确认该框架在现实环境中的有效性。

UX in the Age of AI: Rethinking Evaluation Metrics Through a Statistical Lens