SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

本文介绍了 SpreadsheetArena 平台,通过盲测 pairwise 评估来研究大语言模型在生成满足用户显性及隐性约束的电子表格工作簿时的表现,揭示了不同场景下偏好特征的显著差异以及现有模型在金融等专业领域最佳实践对齐方面的不足。

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SPREADSHEETARENA(电子表格竞技场) 的新平台,它的核心任务是:看看现在的 AI 大模型,到底能不能像人类专家一样,听懂人话并做出完美的电子表格。

为了让你更容易理解,我们可以把这件事想象成一场"超级厨师大比拼"。

1. 背景:AI 不仅能聊天,还能“做菜”

以前,我们觉得 AI 最擅长的是写诗、写代码或者聊天。但现在的 AI 越来越强,人们开始让它做更具体的事,比如生成电子表格(Excel 文件)。

这就好比:

  • 以前的任务:让 AI 写一首关于“做蛋糕”的诗(聊天/生成文本)。
  • 现在的任务:让 AI 真的做出一盘蛋糕(生成结构化的电子表格),而且这盘蛋糕不仅要能吃(公式要对),还要好看(排版要美),甚至要符合米其林餐厅的标准(符合金融行业的专业规范)。

2. 什么是 SPREADSHEETARENA?(竞技场规则)

作者建立了一个“竞技场”,规则很简单:

  1. 出题:用户(或者专家)给出一个需求,比如“帮我做一个酒店未来 5 年的财务预测表”。
  2. 做菜:16 个不同的顶级 AI 模型(像 Claude、GPT-5、Gemini 等)同时接单,各自生成一个电子表格。
  3. 盲测:用户看不到是哪个 AI 做的,只能看到两个表格,然后投票:“我觉得 A 比 B 好”,或者“两个都很烂”。
  4. 排名:通过成千上万次这样的“盲测投票”,给这些 AI 排个座次(就像下棋的 Elo 积分排名)。

目前的排名情况
就像图 1 显示的,Claude 系列的模型目前表现最好,就像竞技场上的“冠军厨师”。

3. 核心发现:为什么“好吃”不等于“专业”?

这是这篇论文最有趣的地方。作者发现,人类喜欢的,和专家需要的,往往不是一回事。

比喻一:装修房子 vs. 结构安全

  • 人类投票的偏好(大众口味)
    大家更喜欢那些看起来漂亮、内容丰富的表格。

    • 如果表格里有更多的文字说明、更多的颜色填充、更整齐的边框,大家就觉得它“赢了”。
    • 这就好比:你请人装修房子,你更喜欢那个贴了金箔、挂了画、灯光打得漂亮的房间,哪怕里面的水管可能有点漏水。
    • 研究发现:AI 如果多写点字、多涂点颜色,更容易赢得投票。
  • 专家眼中的“硬伤”(专业标准)
    但在金融专家眼里,这些花里胡哨的东西不重要,重要的是逻辑和规矩

    • 比如:能不能把“输入数据”和“计算公式”分开?(不能把数字硬写死在公式里)。
    • 比如:颜色有没有按行业规矩来?(通常蓝色代表输入,黑色代表公式,绿色代表跨表链接)。
    • 研究发现:很多 AI 生成的表格,虽然看起来花哨,但在专家眼里是**“结构崩塌”**的。它们可能把数字直接写死在公式里(硬编码),或者颜色乱涂一气。这就像装修得金碧辉煌,但承重墙是纸糊的,一推就倒。

比喻二:不同场景,不同标准

论文还发现,“好”的标准是随场景变化的

  • 学术科研场景:大家喜欢极简。如果表格涂满了颜色,反而会被扣分,因为科学家想要的是干净的数据,而不是花哨的 PPT。
  • 金融专业场景:大家喜欢守规矩。如果颜色涂错了(比如把公式涂成了蓝色),专家会直接打低分,因为这违反了行业潜规则。

4. 最大的问题:AI 还在“装样子”

作者找了一群真正的金融专家(就像米其林评审员)来给这些 AI 做的表格打分。结果很扎心:

  • 平均分很低:大部分 AI 生成的表格,在专业标准下只能算“勉强能用”甚至“不及格”。
  • 主要缺陷
    1. 逻辑错误:公式算错了,或者数据没连起来。
    2. 缺乏“审计性”:专家想检查数据是怎么算出来的,发现 AI 把关键数据藏起来了,或者逻辑混乱,根本没法查账。
    3. 格式混乱:颜色乱用,没有遵循“输入蓝、公式黑”的行业铁律。

结论就是:目前的 AI 很擅长**“模仿样子”(把表格做得好看、内容丰富),但在“内在逻辑”**(公式正确、结构严谨、符合行业规范)上,还差得远。

5. 这篇论文想告诉我们什么?

  1. 别光看表面:在评估 AI 做表格的能力时,不能只看它生成的表格“长得好不好看”或者“字多不多”,那会误导我们。
  2. 需要“内行”指导:如果想让 AI 真正帮人类做专业工作(比如搞金融建模),不能只靠普通人的投票,必须引入领域专家的标准(比如金融行业的最佳实践)。
  3. 未来方向:现在的 AI 训练数据里,可能缺乏这种“既要对,又要符合行业规矩”的高质量表格数据。未来的 AI 需要学会**“不仅要做对,还要做得专业”**。

总结

这就好比:
现在的 AI 就像一个刚入行的年轻厨师,它能把菜摆盘摆得非常漂亮(颜色好看、文字多),甚至能骗过普通食客的投票。但是,如果你把它做的菜拿去给**老练的食神(金融专家)**尝,你会发现它的火候不对、调料放错了,甚至食材都没熟(逻辑错误)。

SPREADSHEETARENA 这个平台,就是为了让这些“年轻厨师”在真正的“食神”面前接受考验,找出它们真正的短板,从而让它们进化成真正的“大厨”。