SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Each language version is independently generated for its own context, not a direct translation.

🍳 料理の味比べ大会：「SpreadsheetArena」

Imagine you are running a cooking competition. Instead of asking chefs to just "make a dish," you give them具体的な注文（プロンプト）を渡します。

「ホテルの収益予測表を作って」
「大学の研究データを集計して」
「マリオの絵をセルで描いて」

そして、16 人の有名シェフ（AI モデル：Claude, GPT, Gemini など）にそれぞれ料理（スプレッドシート）を作らせ、**「盲検（目隠し）で味比べ」を行います。これがこの論文の舞台「SpreadsheetArena（スプレッドシート・アリーナ）」**です。

参加者は、2 つの料理（スプレッドシート）を見せられ、「どちらが美味しい（使いやすい）か」を投票します。

🔍 発見した「意外な真実」

この大会を通じて、いくつかの面白い（そして少し驚くべき）ことがわかりました。

1. 「見た目」が勝敗を左右する

料理で言うと、「盛り付け」や「器の美しさ」が、味そのものよりも評価されがちです。

結果: AI が作ったスプレッドシートで、**「文字が太字になっている」「色がついている」「罫線が綺麗」といった「見た目の派手さ」**がある方が、人間には好まれます。
逆説: 計算式が複雑で高度なもの（料理でいう「凝った調理法」）が勝つとは限りません。むしろ、シンプルで読みやすいものが好まれる傾向があります。

2. 「分野」によって「正解」が違う

同じ料理でも、食べる人が誰かによって評価基準が変わります。

学術研究の分野: 「数字の精度」や「生データ」が重視されます。ここで**「派手な色付け」をすると、逆に「ごまかしている？」と疑われて評価が下がる**ことがあります。（「素直な数字こそが正義」の世界です）
ビジネス・金融の分野: 「プロのルール」が重視されます。例えば、**「入力欄は青、計算式は黒」という決まりがあります。これを無視して、ただ綺麗に色付けしただけのスプレッドシートは、プロの専門家からは「使い物にならない」**と判断されます。

3. 「人間が選ぶ」vs「プロが選ぶ」のズレ

大会の投票（一般の人）と、金融のプロ（専門家）の評価を比べると、大きなズレがあることがわかりました。

一般の投票: 「見た目が綺麗で、とりあえず計算ができそう」なものに投票する。
プロの評価: 「計算式の中に数字が埋め込まれていないか？」「入力を変えたら自動で更新されるか？」という**「中身の信頼性」**を厳しくチェックする。
結論: 現在の AI は、**「見た目はプロっぽく見せるのが得意」ですが、「金融のプロが求める厳密なルール（ベストプラクティス）を守りきるのはまだ苦手」**です。

📉 順位表の「トリック」

この大会では、単なる「勝った回数」だけでなく、**「どんな特徴（見た目、行数、色など）を持っていたか」**を考慮して順位を調整しました。

調整前: 見た目が派手な AI がトップ争い。
調整後（中身重視）: 見た目の派手さを差し引くと、順位がガクッと変わる AI がいたり、逆に地味だが実力のある AI が上位に浮上したりしました。
- 例：ある AI は「派手な色付け」で勝っていたが、その色付けを評価基準から外すと、実力順位は下がる。

💡 私たちが何を学べるか？

この研究は、**「AI にスプレッドシートを作らせるのは、まだ完全には信頼できない」**というメッセージを伝えています。

AI は「見栄え」は得意: すぐに使えるような、綺麗で整った表を作れます。
AI は「深層」は苦手: 金融や専門分野で使われる、厳密なルールや、後から誰が見ても「この計算は正しい」と証明できるような、堅実な構造を作るのはまだ難しい。

まとめると：
「AI に Excel を作らせるのは便利ですが、**『見た目が綺麗だからといって、中身が正しいとは限らない』**ことに注意しましょう。特にお金や重要なデータに関わる仕事では、人間が必ずチェック（味見）する必要があります」ということです。

この「アリーナ（競技場）」は、AI がより実用的で、プロの基準にも応えられるようになるための、重要な第一歩となる研究です。

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

🍳 料理の味比べ大会：「SpreadsheetArena」

🔍 発見した「意外な真実」

1. 「見た目」が勝敗を左右する

2. 「分野」によって「正解」が違う

3. 「人間が選ぶ」vs「プロが選ぶ」のズレ

📉 順位表の「トリック」

💡 私たちが何を学べるか？

SPREADSHEETARENA: LLM によるスプレッドシート生成における選好の分解

1. 問題定義と背景

2. 手法：SPREADSHEETARENA プラットフォーム

3. 主要な貢献

4. 主要な結果と知見

4.1 全体的な性能と特徴量の影響

4.2 ドメインごとの選好の違い

4.3 失敗モードの分析

4.4 専門家評価との乖離

5. 意義と結論

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

🍳 料理の味比べ大会：「SpreadsheetArena」

🔍 発見した「意外な真実」

1. 「見た目」が勝敗を左右する

2. 「分野」によって「正解」が違う

3. 「人間が選ぶ」vs「プロが選ぶ」のズレ

📉 順位表の「トリック」

💡 私たちが何を学べるか？

SPREADSHEETARENA: LLM によるスプレッドシート生成における選好の分解

1. 問題定義と背景

2. 手法：SPREADSHEETARENA プラットフォーム

3. 主要な貢献

4. 主要な結果と知見

4.1 全体的な性能と特徴量の影響

4.2 ドメインごとの選好の違い

4.3 失敗モードの分析

4.4 専門家評価との乖離

5. 意義と結論

関連論文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models