技术摘要：用于评估电子表格下一动作预测的基准测试与框架

问题陈述

虽然预测性代码补全显著加速了软件工程中的开发者生产力，但类似的电子表格创作功能几乎不存在。尽管电子表格无处不在，但目前的自动化工具仍局限于特定场景（例如公式生成或通过 FlashFill 进行列推导），或者需要用户显式调用自然语言智能体。对于常规、重复性的编辑任务，提示词工程和等待响应的开销往往超过了直接操作的成本，导致用户默认选择手动输入。

开发通用的电子表格下一动作预测器面临两大主要障碍：

数据稀缺性： 与拥有详细版本历史的代码不同，公开的电子表格语料库缺乏细粒度的编辑历史。现有的数据集通常仅捕捉静态快照或高层级的演变。
评估复杂性： 电子表格的操作空间非常复杂，涉及空间、时间及复合操作。此外，静态的“给定历史 $x$ ，预测下一动作 $y$ ”的评估（教师强制）无法捕捉用户交互的动态特性，即被接受的预测会改变未来状态及随后的用户需求。

研究方法

1. 基准数据集构建

为了解决编辑历史缺失的问题，作者策划了一个包含 52 条高质量轨迹、共计 11,907 次操作 的数据集。这些轨迹通过对静态公开工作簿进行重构，还原了电子表格的创建过程。构建流程包含三个阶段：

符号化冷启动（Symbolic Cold-Start）： 使用视觉语言模型（VLM）为静态表格标注语义元数据（区域、依赖关系、粘贴范围）。随后利用符号启发式方法将最终状态分解为单元格级操作，并将相邻的相同操作合并为范围操作。
LLM 精炼（LLM Refinement）： 基于 LLM 的评判者-编辑循环（judge-editor loop）识别并纠正符号序列中不自然的模式（例如，将分散的单元格逐个格式化合并为范围操作，移除多余的格式设置）。
人工标注： 人类标注员进行最后一次检查，以纠正剩余的不自然子序列。这一步工作量巨大；预标注与最终轨迹之间的平均归一化编辑距离为 0.69，其中 52 条轨迹中有 19 条实际上被完全重写。

该数据集涵盖了多种操作，包括输入、合并、格式化（字体、填充、边框、对齐）、粘贴和自动填充。

2. 在线评估框架

论文提出了一个 在线评估 框架来模拟真实的用户工作流，从而超越了静态的逐步评分。

流程： 系统观察 $n$ 个动作的历史记录，并预测零个或多个动作序列。
接受/拒绝： 根据接受启发式算法（例如，精度阈值、用户操作节省量），预测结果被接受或拒绝。
状态适配：
- 如果被接受： 动态更新未来的地面真值（ground-truth）轨迹。成功的预测会移除对应的未来操作。误报（False Positives）则会触发逆向操作（例如，清除错误的填充）以撤销错误。
- 如果被拒绝： 预测被丢弃，下一个地面真值用户动作被添加到历史记录中。
终止： 循环重复直至达到目标电子表格或超过步骤阈值。

3. 指标

该框架在三个粒度上计算指标：

属性/动作级： 将单个（单元格、属性）对分类为真阳性（TP）、假阳性（FP）、假阴性（FN）或不匹配（MM）。
预测级： 测量 精度（Precision）（正确属性的比例）和 用户节省的操作数（UAS），后者量化了如果接受预测所能实现的净减少用户工作量的程度。
仿真级： 追踪 接受率（AR）、平均精度 以及 可预测覆盖率（PCOV） —— 即系统实际产生的、由先验知识（oracle）确定的理论上可预测动作的比例。

4. 基准求解器

框架评估了三类求解器：

零样本 LLM： 使用历史记录和操作语法进行提示的模型（GPT-5 变体）。
微调后的 SLM： 在合成操作序列上训练的 SmolLM2 模型（135M 和 360M 参数）。
经典机器学习： N-gram 模型（离线训练与在线训练）、LSTM 和 XGBoost。

关键结果

可学习性： 该任务是可学习的。模型能力与性能之间存在明显的正相关关系。在单动作重预测设置下，具备推理能力的 GPT-5 达到了 32.7% 的 UAS，而 GPT-5 mini 为 18.0%。经过微调的 SmolLM2-360M（26.8% UAS）尽管规模显著较小，但其表现已接近 GPT-5（27.4%）。
放弃预测的重要性： 缺乏放弃（abstention）能力的模型表现不佳。“始终预测（ALWAYS）”启发式策略（接受所有预测）导致 -19.2% 的 UAS（净节省为负），这是由于其精度极低（9.3%）。这证实了知道“何时不进行预测”与预测准确性同样重要。
触发频率： 在每次用户动作后调用预测器（ $s=1$ ）时，尽管其接受率（30.9%）低于低频触发，但获得了最高的 UAS（27.4%）。这表明，廉价且频繁的触发器具有价值，因为用户可以在不产生显著惩罚的情况下拒绝错误的建议。
动作类别： 内容密集型操作（输入、粘贴、填充）的接受率高于呈现型操作（对齐、边框）。微调显著提升了模型在结构化类别（边框、填充、自动填充）上的表现，而这些类别在基础模型中表现较差。
上下文长度： 将上下文窗口从 32 增加到 128 个操作可以提高 UAS，但超过 128 后收益迅速递减，这表明大部分预测信号存在于近期历史中。
预测长度： 在多动作设置中，不受限制的预测范围表现最佳。限制每次预测的动作数量会降低 UAS，这表明当允许模型针对重复模式发出更长序列时，模型能够实现良好的自我调节。

意义与贡献

本文做出了三个主要贡献：

基准数据集： 第一个策划的包含 52 条电子表格创建轨迹（11,907 次操作）的数据集，具有经过人工验证的地面真值，解决了编辑历史数据匮乏的关键问题。
在线评估框架： 一种新型评估方法，它模拟了用户接受行为并动态适配地面真值轨迹。这捕捉到了现实世界中的效用和误差累积效应，而静态的离线评估则无法捕捉这些特征。
设计洞察： 通过将该框架应用于各种基准模型，作者证明了：
- 动作预测对于大型和小型模型都是一项可行的任务。
- 放弃机制（Abstention mechanisms） 对效用至关重要；模型必须学会当置信度较低时抑制预测。
- 廉价触发器（频繁的预测尝试）比等待高置信度时刻更有效。
- 在领域特定操作序列上进行微调可以让小型模型媲美大型零样本 LLM。

作者总结认为，该基准和框架为开发主动式、无模式（modeless）的电子表格助手提供了必要的基石，填补了代码补全与电子表格生产力之间的鸿沟。他们明确鼓励研究更低能耗的方法（如微调后的 SLM）来解决这一问题。

A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets