原作者: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen
原作者: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen
原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
技术摘要:用于评估电子表格下一动作预测的基准测试与框架
问题陈述
虽然预测性代码补全显著加速了软件工程中的开发者生产力,但类似的电子表格创作功能几乎不存在。尽管电子表格无处不在,但目前的自动化工具仍局限于特定场景(例如公式生成或通过 FlashFill 进行列推导),或者需要用户显式调用自然语言智能体。对于常规、重复性的编辑任务,提示词工程和等待响应的开销往往超过了直接操作的成本,导致用户默认选择手动输入。
开发通用的电子表格下一动作预测器面临两大主要障碍:
- 数据稀缺性: 与拥有详细版本历史的代码不同,公开的电子表格语料库缺乏细粒度的编辑历史。现有的数据集通常仅捕捉静态快照或高层级的演变。
- 评估复杂性: 电子表格的操作空间非常复杂,涉及空间、时间及复合操作。此外,静态的“给定历史 x,预测下一动作 y”的评估(教师强制)无法捕捉用户交互的动态特性,即被接受的预测会改变未来状态及随后的用户需求。
研究方法
1. 基准数据集构建
为了解决编辑历史缺失的问题,作者策划了一个包含 52 条高质量轨迹、共计 11,907 次操作 的数据集。这些轨迹通过对静态公开工作簿进行重构,还原了电子表格的创建过程。构建流程包含三个阶段:
- 符号化冷启动(Symbolic Cold-Start): 使用视觉语言模型(VLM)为静态表格标注语义元数据(区域、依赖关系、粘贴范围)。随后利用符号启发式方法将最终状态分解为单元格级操作,并将相邻的相同操作合并为范围操作。
- LLM 精炼(LLM Refinement): 基于 LLM 的评判者-编辑循环(judge-editor loop)识别并纠正符号序列中不自然的模式(例如,将分散的单元格逐个格式化合并为范围操作,移除多余的格式设置)。
- 人工标注: 人类标注员进行最后一次检查,以纠正剩余的不自然子序列。这一步工作量巨大;预标注与最终轨迹之间的平均归一化编辑距离为 0.69,其中 52 条轨迹中有 19 条实际上被完全重写。
该数据集涵盖了多种操作,包括输入、合并、格式化(字体、填充、边框、对齐)、粘贴和自动填充。
2. 在线评估框架
论文提出了一个 在线评估 框架来模拟真实的用户工作流,从而超越了静态的逐步评分。
- 流程: 系统观察 n 个动作的历史记录,并预测零个或多个动作序列。
- 接受/拒绝: 根据接受启发式算法(例如,精度阈值、用户操作节省量),预测结果被接受或拒绝。
- 状态适配:
- 如果被接受: 动态更新未来的地面真值(ground-truth)轨迹。成功的预测会移除对应的未来操作。误报(False Positives)则会触发逆向操作(例如,清除错误的填充)以撤销错误。
- 如果被拒绝: 预测被丢弃,下一个地面真值用户动作被添加到历史记录中。
- 终止: 循环重复直至达到目标电子表格或超过步骤阈值。
3. 指标
该框架在三个粒度上计算指标:
- 属性/动作级: 将单个(单元格、属性)对分类为真阳性(TP)、假阳性(FP)、假阴性(FN)或不匹配(MM)。
- 预测级: 测量 精度(Precision)(正确属性的比例)和 用户节省的操作数(UAS),后者量化了如果接受预测所能实现的净减少用户工作量的程度。
- 仿真级: 追踪 接受率(AR)、平均精度 以及 可预测覆盖率(PCOV) —— 即系统实际产生的、由先验知识(oracle)确定的理论上可预测动作的比例。
4. 基准求解器
框架评估了三类求解器:
- 零样本 LLM: 使用历史记录和操作语法进行提示的模型(GPT-5 变体)。
- 微调后的 SLM: 在合成操作序列上训练的 SmolLM2 模型(135M 和 360M 参数)。
- 经典机器学习: N-gram 模型(离线训练与在线训练)、LSTM 和 XGBoost。
关键结果
- 可学习性: 该任务是可学习的。模型能力与性能之间存在明显的正相关关系。在单动作重预测设置下,具备推理能力的 GPT-5 达到了 32.7% 的 UAS,而 GPT-5 mini 为 18.0%。经过微调的 SmolLM2-360M(26.8% UAS)尽管规模显著较小,但其表现已接近 GPT-5(27.4%)。
- 放弃预测的重要性: 缺乏放弃(abstention)能力的模型表现不佳。“始终预测(ALWAYS)”启发式策略(接受所有预测)导致 -19.2% 的 UAS(净节省为负),这是由于其精度极低(9.3%)。这证实了知道“何时不进行预测”与预测准确性同样重要。
- 触发频率: 在每次用户动作后调用预测器(s=1)时,尽管其接受率(30.9%)低于低频触发,但获得了最高的 UAS(27.4%)。这表明,廉价且频繁的触发器具有价值,因为用户可以在不产生显著惩罚的情况下拒绝错误的建议。
- 动作类别: 内容密集型操作(输入、粘贴、填充)的接受率高于呈现型操作(对齐、边框)。微调显著提升了模型在结构化类别(边框、填充、自动填充)上的表现,而这些类别在基础模型中表现较差。
- 上下文长度: 将上下文窗口从 32 增加到 128 个操作可以提高 UAS,但超过 128 后收益迅速递减,这表明大部分预测信号存在于近期历史中。
- 预测长度: 在多动作设置中,不受限制的预测范围表现最佳。限制每次预测的动作数量会降低 UAS,这表明当允许模型针对重复模式发出更长序列时,模型能够实现良好的自我调节。
意义与贡献
本文做出了三个主要贡献:
- 基准数据集: 第一个策划的包含 52 条电子表格创建轨迹(11,907 次操作)的数据集,具有经过人工验证的地面真值,解决了编辑历史数据匮乏的关键问题。
- 在线评估框架: 一种新型评估方法,它模拟了用户接受行为并动态适配地面真值轨迹。这捕捉到了现实世界中的效用和误差累积效应,而静态的离线评估则无法捕捉这些特征。
- 设计洞察: 通过将该框架应用于各种基准模型,作者证明了:
- 动作预测对于大型和小型模型都是一项可行的任务。
- 放弃机制(Abstention mechanisms) 对效用至关重要;模型必须学会当置信度较低时抑制预测。
- 廉价触发器(频繁的预测尝试)比等待高置信度时刻更有效。
- 在领域特定操作序列上进行微调可以让小型模型媲美大型零样本 LLM。
作者总结认为,该基准和框架为开发主动式、无模式(modeless)的电子表格助手提供了必要的基石,填补了代码补全与电子表格生产力之间的鸿沟。他们明确鼓励研究更低能耗的方法(如微调后的 SLM)来解决这一问题。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。
每周获取最佳 computer science 论文。
受到斯坦福、剑桥和法国科学院研究人员的信赖。
请查收邮箱确认订阅。
出了点问题,再试一次?
无垃圾邮件,随时退订。