Learning Next Action Predictors from Human-Computer Interaction

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LongNAP 的新技术，它的核心目标是让 AI 变得真正“懂你”，能够预测你接下来要做什么。

想象一下，现在的 AI 助手（比如 Siri 或 Chatbot）就像是一个只透过钥匙孔看世界的盲人。你告诉它“帮我查天气”，它才去查；你告诉它“写封邮件”，它才去写。它不知道你为什么查天气，也不知道你刚才在纠结什么，更不知道你在屏幕前看了半小时的论文后，下一秒可能会想给同事发个消息。

这篇论文提出的 LongNAP，就是要把这个“钥匙孔”变成一扇全景落地窗，让 AI 能看到你屏幕上的每一个动作、每一次点击，甚至你浏览网页时的犹豫，从而预判你的需求。

为了让你更容易理解，我们可以用三个生动的比喻来拆解这项技术：

1. 数据收集：给 AI 配一个“隐形管家” (NAPsack)

要训练 AI 预测未来，首先得让它看足够多的“过去”。但让人类自己记录“我刚才点了什么、看了什么”是不现实的，太累也太隐私。

比喻：作者开发了一个叫 NAPsack 的工具，它就像是一个隐形的、不知疲倦的私人管家。
怎么做：这个管家不会打扰你，它只是静静地站在你身后，看着你的手机或电脑屏幕。当你操作时，它会快速抓拍屏幕截图，并记录下你的点击和输入。
魔法时刻：管家自己看不懂这些截图，所以它请了一位“超级翻译官”（视觉语言模型，VLM）来帮忙。翻译官看着管家抓拍的几百张截图，把它们翻译成人类能懂的语言，比如：“用户刚刚在查看论文评论，然后打开了 Slack 准备联系合作者”。
成果：他们收集了 20 个人、长达一个月（1800 小时）的真实生活数据，把 36 万次操作都变成了这种“翻译好的故事”。

2. 核心模型：一位“会翻旧账”的超级侦探 (LongNAP)

有了数据，怎么训练 AI 预测未来呢？普通的 AI 就像金鱼，记性只有 7 秒，只能看到眼前这一秒。但 LongNAP 不一样。

比喻：LongNAP 是一位拥有“超忆症”且擅长“翻旧账”的超级侦探。
两步走策略：
1. 推理与检索 (Reasoning to Retrieve)：当你正在看一份很难的论文时，侦探不会只盯着现在的屏幕。它会先思考：“这人现在遇到难题了”，然后立刻去它的记忆库（过去几个月的记录）里翻找：“啊！我想起来了，上次他遇到类似难题时，他习惯先查实验数据，然后给同事发 Slack 消息。”
2. 预测 (Reasoning to Predict)：结合刚才的“旧账”和现在的“新情况”，侦探会给出一个预测：“他接下来大概率会打开实验追踪软件，然后给同事发消息。”
自我进化：如果侦探猜对了，它就把这个“推理过程”记在小本本上，下次遇到类似情况，它就能猜得更准。如果猜错了，它也会吸取教训。

3. 训练与奖励：像教小孩一样“试错” (LLM-as-a-Judge)

怎么知道侦探猜得对不对呢？总不能一直等用户做完了再告诉它吧？

比喻：作者用了一个**“时间机器” + “严厉考官”**的组合。
怎么做：因为数据是记录下来的，AI 可以“假装”在某个时间点停下来，做出预测。然后，它直接快进时间，看看用户实际上接下来做了什么。
打分：AI 把“预测的动作”和“实际发生的动作”交给一个**AI 考官（LLM Judge）**来打分。如果预测和实际发生的很像（比如都去查了实验数据），就奖励它；如果完全猜偏了（比如预测去玩游戏，实际在回邮件），就扣分。
结果：通过这种不断的“预测 - 快进 - 打分 - 修正”，LongNAP 变得越来越聪明。

这项技术有多厉害？

单兵作战强：当 LongNAP 专门学习某一个人的习惯时，它的预测准确率比现有的顶级 AI 模型（如直接微调的模型或简单的提示词）高出 79%。
举一反三：即使面对一个它从未见过的新用户，只要它见过很多人的数据，也能猜个八九不离十，比传统方法高出 13%。
准确率：在 100 次预测中，有 17% 它能精准猜中你接下来要做的整个流程；如果只算它最有把握的那些预测，准确率能飙升到 26%。考虑到人类行为千变万化，这已经是非常惊人的进步了。

总结与思考

这篇论文告诉我们：AI 不再需要等你开口指令，它可以通过观察你的“数字生活痕迹”，主动预判你的需求。

未来场景：想象一下，当你刚打开一个复杂的文档，AI 就已经帮你把相关的参考资料、可能需要的同事联系方式都准备好了，甚至帮你起草了第一句话。
隐私担忧：当然，这也带来了隐私问题。就像让一个管家住进你家，它知道你的一切。作者也提到，未来的方向是让这些计算在你自己的设备上完成，而不是上传到云端，这样既能享受便利，又能保护隐私。

简单来说，LongNAP 就是让 AI 从“听话的仆人”进化成了“懂你的伙伴”，它不再只是执行命令，而是开始理解你的意图，甚至在你意识到之前，就为你铺好了路。

Each language version is independently generated for its own context, not a direct translation.

1. 问题定义 (Problem Definition)

核心挑战：
当前的 AI 系统（如大语言模型）通常只能看到用户输入的稀疏提示（prompts），缺乏对用户整体上下文（所见、所做、历史习惯）的深刻理解。真正的“主动式 AI"需要能够预测用户接下来要做什么，从而在用户提问之前提供辅助。

任务形式化：下一动作预测 (Next Action Prediction, NAP)

输入： 用户与计算机交互的时间序列 $E = \{e_1, e_2, ..., e_T\}$ 。每个事件 $e_t$ 包含动作 $a_t$ （自然语言描述的任务，如“点击下载”）和可选的视觉观察 $I_t$ （如截图）。
目标： 给定当前上下文窗口 $E_{t-k:t}$ ，预测未来的动作序列 $\hat{E}_{t+1:t+h}$ 。
难点：
1. 数据稀缺： 缺乏大规模、自然主义（naturalistic）、带有细粒度动作标注的长期人机交互数据。
2. 长上下文与推理： 模型需要处理长达数小时甚至数天的交互历史，且需要结合长期记忆（用户习惯）和短期上下文进行推理，而不仅仅是依赖参数微调。
3. 动作空间无限： 用户可能采取的动作空间是未界定的（unbounded），涵盖数千种可能的结果。

2. 方法论 (Methodology)

论文提出了两个主要贡献来解决上述问题：NAPsack（数据收集与标注管道）和 LongNAP（预测模型架构）。

2.1 数据收集与标注：NAPsack

为了获取大规模的真实用户行为数据，作者设计了一个被动式的数据收集与标注系统。

被动收集： 在用户不知情的情况下（经伦理批准），连续记录屏幕截图、鼠标点击、滚动、键盘输入等 I/O 事件。
事件压缩与分组： 将相邻的同类交互事件（如连续点击）分组为“突发（bursts）”，仅保留交互前后的截图，大幅减少数据量（存储减少约 70%）。
VLM 自动标注： 利用视觉语言模型（VLM）将截图序列和 I/O 事件转化为高层级的自然语言动作描述（Action Captions）。
- 策略： 将长视频切片（60 帧），结合 I/O 事件提示 VLM 生成动作描述。
- 评估： 使用 LLM-as-a-judge（Gemini 3.0 Flash）评估生成动作与人工标注的相似度。结果显示，结合 I/O 事件和分片处理的策略效果最佳（相似度分数从 0.48 提升至 0.70）。
数据集规模： 从 20 名用户收集了 1 个月的连续手机使用数据，涵盖 1,800 小时的屏幕时间，标注了超过 36 万个动作。

2.2 模型架构：LongNAP (Long-context Next Action Predictor)

LongNAP 是一个结合了参数化学习（微调）和上下文学习（In-context Learning）的两阶段模型，旨在解决长历史推理问题。

核心机制：检索增强推理 (Retrieval-Augmented Reasoning)
模型维护一个包含过去观察和推理痕迹（Reasoning Traces）的记忆库 $M_t$ 。
1. 阶段一：推理以检索 (Reasoning to Retrieve)
  - 模型基于当前上下文生成初步的推理痕迹 $z_{retrieve}$ （例如：“用户刚收到论文审稿意见，可能会去修改”）。
  - 利用 $z_{retrieve}$ 作为查询，通过检索器（BM25）从记忆库中检索相关的历史痕迹（例如：“该用户过去习惯在收到审稿后通过 Slack 联系合作者”）。
2. 阶段二：推理以预测 (Reasoning to Predict)
  - 模型整合检索到的历史痕迹，修正推理并生成最终的动作预测 $\hat{E}_{t+1:t+h}$ 。
  - 预测成功后，将新的推理痕迹存入记忆库，实现自我进化。
训练方法：
- 策略梯度优化 (Policy Gradient)： 使用 GRPO (Group Relative Policy Optimization) 进行端到端训练。
- 奖励信号 (Temporal Reward)： 利用“等待并观察”机制。将模型预测的未来动作与用户实际发生的动作进行对比，使用 LLM-as-a-judge 计算语义相似度作为奖励信号。
- 训练细节： 使用 LoRA 进行微调，采用时间序列训练（按时间顺序处理数据），并在每个 Epoch 重置记忆以防止数据泄露。

3. 关键贡献 (Key Contributions)

NAPsack 管道： 开源了一个被动式数据收集与标注工具，证明了无需用户主动标注即可利用 VLM 获取大规模、高质量的细粒度人机交互数据。
LongNAP 模型： 提出了一种新的用户建模范式，通过“推理 - 检索 - 预测”的闭环，使模型能够利用长历史上下文和个性化记忆进行预测，而非仅仅依赖静态的权重微调。
大规模实证研究： 在 20 名用户、1,800 小时屏幕时间、36 万 + 动作的数据集上进行了验证，涵盖了单用户适应和跨用户泛化两种场景。
评估基准： 建立了一套基于 LLM 裁判的评估体系，用于衡量预测轨迹与真实未来动作的语义相似度。

4. 实验结果 (Results)

4.1 单用户泛化 (Generalizing Over Time)

性能提升： 在单用户训练场景下，LongNAP 显著优于基线模型。
- 相比监督微调 (SFT) 基线，性能提升 79%。
- 相比零样本 (Zero-shot) 提示基线，性能提升 106%。
- 相比 Few-shot 提示基线，性能提升 88%。
- 即使与闭源模型（Gemini 3.0 Flash）相比，LongNAP 也高出 39%。
人类评估： 在人工偏好测试中，LongNAP 的胜率高达 79%，远超其他方法。

4.2 跨用户泛化 (Generalizing to New Users)

当在多个用户上联合训练并测试未见过的用户时，LongNAP 仍表现出优于基线的泛化能力（相比最佳基线提升 13%）。
这表明模型学习到了通用的“检索策略”和“推理模式”，而不仅仅是死记硬背特定用户的参数。

4.3 预测置信度与准确率

尽管动作空间巨大，LongNAP 预测的轨迹中有 17.1% 与用户实际行为高度一致（LLM 裁判分数 $\ge 0.5$ ）。
当过滤掉低置信度预测（基于样本方差）时，准确率提升至 26%。
消融实验： 移除“推理”组件导致性能下降约 19%，移除“检索器”导致性能下降约 15%，证明了推理和检索机制的关键作用。

5. 意义与影响 (Significance)

从“被动响应”到“主动预测”： 该研究证明了利用完整的用户行为上下文（而不仅仅是提示词）来预测用户意图是可行的。这为开发真正的主动式 AI 助手（Proactive AI）奠定了基础，助手可以在用户意识到需求之前就提供帮助。
隐私与本地化潜力： 论文强调了在本地基础设施上运行数据收集和模型训练的可能性（如 powerNAP 演示），通过本地记忆和检索减少隐私泄露风险，解决了集中式训练带来的隐私悖论。
新范式： 提出了一种结合“检索增强”与“强化学习”的用户建模新范式，解决了传统微调模型难以适应快速变化的用户行为以及上下文窗口受限的问题。
应用前景： 除了预测，该框架可应用于自动化任务执行（如 SleepWalk 助手，自动执行预测的下一步操作）、个性化推荐优化以及理解人类数字行为模式。

局限性：

目前依赖 VLM 进行标注，可能存在标注噪声。
主要基于屏幕截图，缺乏屏幕外的上下文（如物理环境、语音交流）。
对齐问题：模型可能学会预测用户的“坏习惯”（如拖延），需要引入价值观对齐机制。

总体而言，这篇论文在人机交互和个性化 AI 领域迈出了重要一步，展示了通过大规模被动数据收集和先进的检索增强架构，实现高精度用户行为预测的可行性。