Learning Next Action Predictors from Human-Computer Interaction

该论文提出了名为 LongNAP 的用户模型,通过结合参数化学习与上下文学习,利用大规模标注的自然交互数据来预测用户的多模态下一步操作,从而实现了在复杂交互背景下对用户需求的主动式预测。

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LongNAP 的新技术,它的核心目标是让 AI 变得真正“懂你”,能够预测你接下来要做什么

想象一下,现在的 AI 助手(比如 Siri 或 Chatbot)就像是一个只透过钥匙孔看世界的盲人。你告诉它“帮我查天气”,它才去查;你告诉它“写封邮件”,它才去写。它不知道你为什么查天气,也不知道你刚才在纠结什么,更不知道你在屏幕前看了半小时的论文后,下一秒可能会想给同事发个消息。

这篇论文提出的 LongNAP,就是要把这个“钥匙孔”变成一扇全景落地窗,让 AI 能看到你屏幕上的每一个动作、每一次点击,甚至你浏览网页时的犹豫,从而预判你的需求。

为了让你更容易理解,我们可以用三个生动的比喻来拆解这项技术:

1. 数据收集:给 AI 配一个“隐形管家” (NAPsack)

要训练 AI 预测未来,首先得让它看足够多的“过去”。但让人类自己记录“我刚才点了什么、看了什么”是不现实的,太累也太隐私。

  • 比喻:作者开发了一个叫 NAPsack 的工具,它就像是一个隐形的、不知疲倦的私人管家
  • 怎么做:这个管家不会打扰你,它只是静静地站在你身后,看着你的手机或电脑屏幕。当你操作时,它会快速抓拍屏幕截图,并记录下你的点击和输入。
  • 魔法时刻:管家自己看不懂这些截图,所以它请了一位“超级翻译官”(视觉语言模型,VLM)来帮忙。翻译官看着管家抓拍的几百张截图,把它们翻译成人类能懂的语言,比如:“用户刚刚在查看论文评论,然后打开了 Slack 准备联系合作者”。
  • 成果:他们收集了 20 个人、长达一个月(1800 小时)的真实生活数据,把 36 万次操作都变成了这种“翻译好的故事”。

2. 核心模型:一位“会翻旧账”的超级侦探 (LongNAP)

有了数据,怎么训练 AI 预测未来呢?普通的 AI 就像金鱼,记性只有 7 秒,只能看到眼前这一秒。但 LongNAP 不一样。

  • 比喻:LongNAP 是一位拥有“超忆症”且擅长“翻旧账”的超级侦探
  • 两步走策略
    1. 推理与检索 (Reasoning to Retrieve):当你正在看一份很难的论文时,侦探不会只盯着现在的屏幕。它会先思考:“这人现在遇到难题了”,然后立刻去它的记忆库(过去几个月的记录)里翻找:“啊!我想起来了,上次他遇到类似难题时,他习惯先查实验数据,然后给同事发 Slack 消息。”
    2. 预测 (Reasoning to Predict):结合刚才的“旧账”和现在的“新情况”,侦探会给出一个预测:“他接下来大概率会打开实验追踪软件,然后给同事发消息。”
  • 自我进化:如果侦探猜对了,它就把这个“推理过程”记在小本本上,下次遇到类似情况,它就能猜得更准。如果猜错了,它也会吸取教训。

3. 训练与奖励:像教小孩一样“试错” (LLM-as-a-Judge)

怎么知道侦探猜得对不对呢?总不能一直等用户做完了再告诉它吧?

  • 比喻:作者用了一个**“时间机器” + “严厉考官”**的组合。
  • 怎么做:因为数据是记录下来的,AI 可以“假装”在某个时间点停下来,做出预测。然后,它直接快进时间,看看用户实际上接下来做了什么。
  • 打分:AI 把“预测的动作”和“实际发生的动作”交给一个**AI 考官(LLM Judge)**来打分。如果预测和实际发生的很像(比如都去查了实验数据),就奖励它;如果完全猜偏了(比如预测去玩游戏,实际在回邮件),就扣分。
  • 结果:通过这种不断的“预测 - 快进 - 打分 - 修正”,LongNAP 变得越来越聪明。

这项技术有多厉害?

  • 单兵作战强:当 LongNAP 专门学习某一个人的习惯时,它的预测准确率比现有的顶级 AI 模型(如直接微调的模型或简单的提示词)高出 79%
  • 举一反三:即使面对一个它从未见过的新用户,只要它见过很多人的数据,也能猜个八九不离十,比传统方法高出 13%
  • 准确率:在 100 次预测中,有 17% 它能精准猜中你接下来要做的整个流程;如果只算它最有把握的那些预测,准确率能飙升到 26%。考虑到人类行为千变万化,这已经是非常惊人的进步了。

总结与思考

这篇论文告诉我们:AI 不再需要等你开口指令,它可以通过观察你的“数字生活痕迹”,主动预判你的需求。

  • 未来场景:想象一下,当你刚打开一个复杂的文档,AI 就已经帮你把相关的参考资料、可能需要的同事联系方式都准备好了,甚至帮你起草了第一句话。
  • 隐私担忧:当然,这也带来了隐私问题。就像让一个管家住进你家,它知道你的一切。作者也提到,未来的方向是让这些计算在你自己的设备上完成,而不是上传到云端,这样既能享受便利,又能保护隐私。

简单来说,LongNAP 就是让 AI 从“听话的仆人”进化成了“懂你的伙伴”,它不再只是执行命令,而是开始理解你的意图,甚至在你意识到之前,就为你铺好了路