SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SPREADSHEETARENA（电子表格竞技场） 的新平台，它的核心任务是：看看现在的 AI 大模型，到底能不能像人类专家一样，听懂人话并做出完美的电子表格。

为了让你更容易理解，我们可以把这件事想象成一场"超级厨师大比拼"。

1. 背景：AI 不仅能聊天，还能“做菜”

以前，我们觉得 AI 最擅长的是写诗、写代码或者聊天。但现在的 AI 越来越强，人们开始让它做更具体的事，比如生成电子表格（Excel 文件）。

这就好比：

以前的任务：让 AI 写一首关于“做蛋糕”的诗（聊天/生成文本）。
现在的任务：让 AI 真的做出一盘蛋糕（生成结构化的电子表格），而且这盘蛋糕不仅要能吃（公式要对），还要好看（排版要美），甚至要符合米其林餐厅的标准（符合金融行业的专业规范）。

2. 什么是 SPREADSHEETARENA？（竞技场规则）

作者建立了一个“竞技场”，规则很简单：

出题：用户（或者专家）给出一个需求，比如“帮我做一个酒店未来 5 年的财务预测表”。
做菜：16 个不同的顶级 AI 模型（像 Claude、GPT-5、Gemini 等）同时接单，各自生成一个电子表格。
盲测：用户看不到是哪个 AI 做的，只能看到两个表格，然后投票：“我觉得 A 比 B 好”，或者“两个都很烂”。
排名：通过成千上万次这样的“盲测投票”，给这些 AI 排个座次（就像下棋的 Elo 积分排名）。

目前的排名情况：
就像图 1 显示的，Claude 系列的模型目前表现最好，就像竞技场上的“冠军厨师”。

3. 核心发现：为什么“好吃”不等于“专业”？

这是这篇论文最有趣的地方。作者发现，人类喜欢的，和专家需要的，往往不是一回事。

比喻一：装修房子 vs. 结构安全

人类投票的偏好（大众口味）：
大家更喜欢那些看起来漂亮、内容丰富的表格。
- 如果表格里有更多的文字说明、更多的颜色填充、更整齐的边框，大家就觉得它“赢了”。
- 这就好比：你请人装修房子，你更喜欢那个贴了金箔、挂了画、灯光打得漂亮的房间，哪怕里面的水管可能有点漏水。
- 研究发现：AI 如果多写点字、多涂点颜色，更容易赢得投票。
专家眼中的“硬伤”（专业标准）：
但在金融专家眼里，这些花里胡哨的东西不重要，重要的是逻辑和规矩。
- 比如：能不能把“输入数据”和“计算公式”分开？（不能把数字硬写死在公式里）。
- 比如：颜色有没有按行业规矩来？（通常蓝色代表输入，黑色代表公式，绿色代表跨表链接）。
- 研究发现：很多 AI 生成的表格，虽然看起来花哨，但在专家眼里是**“结构崩塌”**的。它们可能把数字直接写死在公式里（硬编码），或者颜色乱涂一气。这就像装修得金碧辉煌，但承重墙是纸糊的，一推就倒。

比喻二：不同场景，不同标准

论文还发现，“好”的标准是随场景变化的：

学术科研场景：大家喜欢极简。如果表格涂满了颜色，反而会被扣分，因为科学家想要的是干净的数据，而不是花哨的 PPT。
金融专业场景：大家喜欢守规矩。如果颜色涂错了（比如把公式涂成了蓝色），专家会直接打低分，因为这违反了行业潜规则。

4. 最大的问题：AI 还在“装样子”

作者找了一群真正的金融专家（就像米其林评审员）来给这些 AI 做的表格打分。结果很扎心：

平均分很低：大部分 AI 生成的表格，在专业标准下只能算“勉强能用”甚至“不及格”。
主要缺陷：
1. 逻辑错误：公式算错了，或者数据没连起来。
2. 缺乏“审计性”：专家想检查数据是怎么算出来的，发现 AI 把关键数据藏起来了，或者逻辑混乱，根本没法查账。
3. 格式混乱：颜色乱用，没有遵循“输入蓝、公式黑”的行业铁律。

结论就是：目前的 AI 很擅长**“模仿样子”（把表格做得好看、内容丰富），但在“内在逻辑”**（公式正确、结构严谨、符合行业规范）上，还差得远。

5. 这篇论文想告诉我们什么？

别光看表面：在评估 AI 做表格的能力时，不能只看它生成的表格“长得好不好看”或者“字多不多”，那会误导我们。
需要“内行”指导：如果想让 AI 真正帮人类做专业工作（比如搞金融建模），不能只靠普通人的投票，必须引入领域专家的标准（比如金融行业的最佳实践）。
未来方向：现在的 AI 训练数据里，可能缺乏这种“既要对，又要符合行业规矩”的高质量表格数据。未来的 AI 需要学会**“不仅要做对，还要做得专业”**。

总结

这就好比：
现在的 AI 就像一个刚入行的年轻厨师，它能把菜摆盘摆得非常漂亮（颜色好看、文字多），甚至能骗过普通食客的投票。但是，如果你把它做的菜拿去给**老练的食神（金融专家）**尝，你会发现它的火候不对、调料放错了，甚至食材都没熟（逻辑错误）。

SPREADSHEETARENA 这个平台，就是为了让这些“年轻厨师”在真正的“食神”面前接受考验，找出它们真正的短板，从而让它们进化成真正的“大厨”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心任务：端到端的电子表格（Spreadsheet）生成。即大语言模型（LLM）根据用户的自然语言提示（Prompt），生成包含公式、数据、格式和多个工作表的完整电子表格文件（Workbook）。

面临的挑战：

结构复杂性：电子表格不仅仅是文本或代码，它编码了单元格之间密集的图结构依赖关系（Graph-structured dependencies），且包含复杂的交互性。
评估困难：与代码生成不同，电子表格的“正确性”不仅取决于公式是否运行，还取决于是否符合特定领域的最佳实践（如金融建模规范）、布局的可读性、格式规范以及用户的主观偏好。
偏好多样性：不同场景（如学术研究 vs. 专业金融）对高质量电子表格的定义截然不同。例如，学术界可能偏好简洁的数据，而金融界则严格遵循特定的颜色编码和公式规范。
现有基准的不足：传统的程序化验证（如检查公式是否报错）不足以捕捉用户体验和领域规范；而通用的对话评估（如 Chatbot Arena）未针对结构化艺术品的多维特性进行优化。

2. 方法论 (Methodology)

作者提出了 SPREADSHEETARENA 平台，采用竞技场（Arena）式的盲测评估方法。

2.1 评估平台设计

输入：用户提交自然语言提示（涵盖学术、金融、创意、供应链等多个领域）。
生成：16 个不同的 LLM 模型根据提示生成电子表格的 JSON 序列化表示（SheetSpec），并在客户端渲染为可视化的电子表格。
投票机制：用户进行成对盲测（Pairwise Battles），在两个匿名模型生成的电子表格中投票选择更优者，或标记为“平局/均不满意”。
数据规模：收集了 4,357 次有效投票，覆盖 16 个模型。

2.2 排名算法

使用 Bradley-Terry (BT) 模型 计算模型的胜率系数。
将 BT 系数转换为 Elo 评分（以 GPT-4o 为基准锚点，设为 1000 分）。
特征增强模型 (Feature-augmented BT)：为了分解偏好来源，作者在 BT 模型中引入了 29 个可量化的电子表格特征作为协变量（Covariates）。
- 公式： $P(A \succ B) = \sigma (\theta_A - \theta_B + \sum \beta_k (X_{Ak} - X_{Bk}))$
- 通过控制这些特征，可以计算“特征调整后的 Elo 分数”，从而区分模型是真正能力强，还是仅仅因为生成了更多文本、更复杂的格式而获得高分。

2.3 评估维度

程序化特征分析：提取 29 个特征（公式质量、内容、格式、结构），分析其与获胜概率的统计关联。
失败模式分类 (Failure Taxonomy)：利用 LLM 裁判对失败案例进行多标签分类（如：非功能性、规范不符、完整性缺失、逻辑错误、可解释性差、呈现缺陷等）。
专家评估 (Expert Evaluation)：在金融领域，邀请 5 位具有专业背景的专家，依据行业最佳实践（如 FAST 标准、颜色编码规范）对电子表格进行打分，并与大众投票结果进行对比。

3. 主要贡献 (Key Contributions)

SPREADSHEETARENA 平台：首个专注于端到端电子表格生成的竞技场评估平台，提供了 4,357 次盲测投票数据。
16 个模型的稳定排名：建立了基于 Elo 评分的模型排行榜，并揭示了不同模型家族（Claude, Gemini, GPT, Grok 等）的相对表现。
偏好分解与特征分析：
- 证明了可观察特征（如文本密度、背景填充、单元格数量）显著影响排名。
- 发现调整特征后，排行榜发生显著压缩（Leaderboard Compression），部分模型排名大幅变动，说明原始排名受表面特征干扰较大。
- 揭示了领域特异性：不同领域（如学术 vs. 金融）对特征的偏好截然不同（例如，学术领域偏好少格式，金融领域偏好严格的颜色规范）。
失败模式与专家差距：
- 构建了数据驱动的失败分类法，发现“呈现缺陷”是最普遍的失败原因。
- 发现大众偏好与专家标准存在显著差异：在金融领域，大众投票选出的优胜者往往不符合专业建模规范（如颜色编码、硬编码检查），专家评分普遍较低。

4. 关键结果 (Results)

4.1 整体排名与特征调整

原始排名：Claude Opus 4.5 以 1550 分位居第一，GPT-4o 为 1000 分基准。
特征调整后：
- 排名分布显著压缩。Claude Opus 4.5 降至 1333 分（-217 分），但仍居首。
- Gemini 3 Pro 表现突出，从第 4 名升至第 2 名（调整仅 -56 分），表明其生成的电子表格在去除表面特征干扰后，核心能力更强。
- Qwen3 30B 和 Llama 4 Maverick 在调整后分数大幅提升，说明它们之前的低分部分归因于格式或结构特征的缺失，而非核心逻辑错误。

4.2 特征显著性

正向影响：文本密度（Text Density）、背景填充（Background Fills）、数值内容比例与获胜概率正相关。
负向影响：公式错误率（Formula Error Rate）是主要的负向因素。
非显著因素：公式的复杂性（如查找函数、条件函数的使用）在统计上并未显著影响大众偏好，说明用户更看重“看起来专业”和“无错误”，而非“计算逻辑的深奥”。

4.3 领域差异

学术研究：Claude 模型因过度格式化而排名大幅下降（从第 1 跌至第 9），Grok 4 则因简洁性上升至榜首。该领域偏好“最小化格式”，强调原始数据的透明度。
金融领域：遵循专业规范（如 finance_color_convention）显著增加获胜概率。但大众投票并未完全捕捉到这些规范的重要性。

4.4 专家评估 vs. 大众投票

一致性低：在 52 场金融领域的对决中，专家评分与竞技场投票结果的一致性仅为 42.3%。
主要缺陷：LLM 生成的金融模型在颜色编码（Color Coding）和视觉规范上得分极低（平均 1.95/5），且经常违反“一行一公式”等最佳实践。
结论：即使模型在竞技场中获胜，其生成的电子表格在专业场景下往往仍需大量人工修改才能使用。

4.5 失败模式分析

呈现缺陷 (Presentation Deficiency) 是所有模型最常见的失败原因（57%-96% 的失败案例涉及此问题）。
Claude 家族：虽然排名高，但其失败更多源于完整性（Integrity）和数值计算错误，而非表面的格式问题。这意味着其错误更隐蔽，但在专家审查下更具破坏性。
弱模型：更多表现为“规范不符”（Spec Non-compliance）和“非功能性”（Non-functional）。

5. 意义与展望 (Significance)

重新定义结构化生成评估：证明了对于电子表格等结构化任务，仅靠程序化验证或简单的文本偏好是不够的，必须结合领域规范和多维度的特征分析。
后训练（Post-training）的启示：
- 基于偏好的数据（RLHF/DPO）可能过度奖励表面特征（如格式、长度），而忽略了深层的功能正确性和领域规范。
- 未来的训练数据需要更精细地平衡功能性、结构性和领域特定标准。
行业影响：尽管前沿模型能生成“看起来不错”的电子表格，但在专业金融建模等高风险领域，它们尚未达到可直接部署的水平。这为未来的研究指明了方向：需要改进模型对领域最佳实践（Best Practices）的理解，而不仅仅是遵循提示词。
开源贡献：作者计划发布包含提示词、生成的电子表格和偏好投票的数据集，推动该领域的进一步研究。

总结：SPREADSHEETARENA 揭示了 LLM 在生成复杂结构化艺术品时的能力边界。虽然模型在形式上日益完善，但在深层逻辑、领域规范遵循以及“形式与实质”的平衡上仍存在显著差距，特别是在专业金融领域，大众偏好与专家标准之间存在巨大的鸿沟。