原著者： Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

公開日 2026-06-15

📖 1 分で読めます☕ さくっと読める

原著者： Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

この言語ではまだ解説がありません。

他の言語： DE, EN, ES, FR, IT, JA, KO, NL, PT, ZH

テクニカル・サマリー：スプレッドシートにおける次アクション予測の評価のためのベンチマークとフレームワーク

問題提起

予測的なコード補完はソフトウェアエンジニアリングにおける開発者の生産性を大幅に加速させてきたが、スプレッドシート作成における同様の機能はほとんど存在しない。スプレッドシートの普及にもかかわらず、現在の自動化ツールは特定のシナリオ（例：数式の生成やFlashFillによる列の派生）に限定されているか、あるいは自然言語エージェントへの明示的なプロンプト入力を必要とする。定型的で反復的な編集作業においては、プロンプトを入力して応答を待つオーバーヘッドが直接操作のコストを上回ってしまうことが多く、その結果、ユーザーは手動入力を選択することになる。

スプレッドシート向けの汎用的な次アクション予測器の開発における主な障壁は、以下の2点である：

データの希少性： 詳細な編集履歴を持つコードとは異なり、公開されているスプレッドシートのコーパスには、きめ細かな編集履歴が欠けている。既存のデータセットは通常、静的なスナップショットや高レベルの進化のみを捉えている。
評価の複雑性： スプレッドシートのアクション空間は、空間的、時間的、および複合的な操作を含む複雑なものである。さらに、「与えられた履歴 $x$ に対して次のアクション $y$ を予測する」という静的な（教師強制による）評価では、予測が受け入れられることで将来の状態とそれに続くユーザーのニーズが変化するという、ユーザーインタラクションの動的な性質を捉えることができない。

メソドロジー

1. ベンチマーク・データセットの構築

編集履歴の欠如に対処するため、著者らは52個の高品質な軌跡（合計11,907件の操作）からなるデータセットを精査・作成した。これらの軌跡は、静的な公開ワークブックからスプレッドシートの作成過程を再構成したものである。構築パイプラインは以下の3段階で構成される：

シンボリック・コールドスタート： ビジョン言語モデル（VLM）が静的なシートに意味論的なメタデータ（領域、依存関係、貼り付け範囲）を付与する。その後、シンボリックなヒューリスティックを用いて、最終状態をセルレベルの操作へと分解し、隣接する同一の操作を範囲アクションへと統合する。
LLMによるリファインメント： LLMベースの判定・編集ループにより、シンボリックなシーケンスにおける不自然なパターン（例：散在するセル単位の書式設定を範囲操作に集約する、不要な書式を除去するなど）を特定し、修正する。
人間によるアノテーション： 人間のアノテーターが最終パスを行い、残存する不自然なサブシーケンスを修正する。このステップは重要であり、アノテーション前と最終的な軌跡の平均正規化編集距離は0.69であり、52個中19個の軌跡は実質的に最初から書き直されている。

データセットは、入力、結合、書式設定（フォント、塗りつぶし、境界線、配置）、貼り付け、オートフィルを含む多様な操作をカバーしている。

2. オンライン評価フレームワーク

本論文では、静的なステップごとのスコアリングを超え、実際のユーザーワークフローをシミュレートするオンライン評価フレームワークを提案している。

プロセス： システムは $n$ 個のアクションの履歴を観察し、ゼロまたは複数のアクションのシーケンスを予測する。
受理／拒絶： 受理のヒューリスティック（例：精度閾値、ユーザーのアクション削減量）に基づき、予測は受理または拒絶される。
状態の適応：
- 受理された場合： 将来の正解（グランドトゥルース）の軌跡が動的に更新される。成功した予測は、対応する将来の操作を取り除く。偽陽性（誤った予測）が発生した場合は、エラーを取り消すために逆の操作（例：誤った塗りつぶしのクリア）を挿入する。
- 拒絶された場合： 予測は破棄され、次の正解となるユーザーアクションが履歴に追加される。
終了： 目標のスプレッドシートに到達するか、ステップの閾値を超えるまでループを繰り返す。

3. 指標

フレームワークは、3つの粒度で指標を算出する：

プロパティ／アクション・レベル： 個々の（セル、プロパティ）のペアを、真陽性（TP）、偽陽性（FP）、偽陰性（FN）、またはミスマッチ（MM）として分類する。
予測レベル： 精度（Precision）（正しいプロパティの割合）および、予測が受理された場合の純粋なユーザー努力の削減量を定量化する**ユーザー・アクション削減量（UAS）**を測定する。
エミュレーション・レベル： 受理率（AR）、平均精度、および予測可能性カバレッジ（PCOV）（オラクルによって決定された理論的に予測可能なアクションの割合）を追跡する。

4. ベースライン・ソルバー

フレームワークは、3つの系統のソルバーを評価する：

ゼロショットLLM： 履歴と操作構文をプロンプトとして与えられたモデル（GPT-5バリアント）。
ファインチューニングされたSLM： 合成操作シーケンスで学習されたSmolLM2モデル（135Mおよび360Mパラメータ）。
古典的機械学習： N-gramモデル（学習済みおよびオンライン）、LSTM、およびXGBoost。

主な結果

学習可能性： このタスクは学習可能である。モデルの能力とパフォーマンスの間には明確な相関関係がある。推論を行うGPT-5は、単一アクションの再予測設定において32.7%のUASを達成したが、GPT-5 miniは18.0%であった。ファインチューニングされたSmolLM2-360M（26.8% UAS）は、大幅に小さいにもかかわらず、GPT-5（27.4%）の性能に迫っている。
棄権（Abstention）の重要性： 棄却する能力を持たないモデルは、パフォーマンスが悪化する。「ALWAYS」ヒューリスティック（すべての予測を受け入れる）は、精度の低さ（9.3%）により、-19.2%のUAS（純減の節約）をもたらした。これは、いつ予測しないかを知ることが、予測の正確さと同じくらい重要であることを裏付けている。
トリガー頻度： ユーザーのアクションごとに予測器を呼び出す（ $s=1$ ）ことは、受理率が低い（30.9%）にもかかわらず、最も高いUAS（27.4%）をもたらす。これは、安価で頻繁なトリガーが価値が高いことを示唆しており、ユーザーは大きなペナルティなしに誤った提案を拒絶できるためである。
アクション・カテゴリ： 内容重視の操作（入力、貼り付け、フィル）は、プレゼンテーション系の操作（配置、境界線）よりも高い割合で受理される。ファインチューニングは、ベースモデルが苦戦した構造的カテゴリ（境界線、塗りつぶし、オートフィル）において性能を大幅に向上させる。
コンテキスト長： コンテキストウィンドウを32から128の操作に増やすとUASは向上するが、128を超えると改善は急速に鈍化する。これは、予測信号の大部分が直近の履歴に存在することを示唆している。
予測長： マルチアクション設定では、無制限の予測範囲が最も高い性能を示す。1回の予測におけるアクション数を制限するとUASが低下することから、モデルは長いシーケンスを生成することを許可されると、反復的なパターンに対して適切に自己調節できることが示された。

意義と貢献

本論文の主な貢献は以下の3点である：

ベンチマーク・データセット： 人間によって検証された正解を持つ、52個のスプレッドシート作成軌跡（11,907件の操作）を精査した最初のデータセットであり、編集履歴データの決定的な不足に対処している。
オンライン評価フレームワーク： ユーザーの受理行動をモデル化し、正解の軌跡を動的に適応させる新しい評価手法を提案している。これにより、静的なオフライン評価では捉えられない、現実世界の有用性とエラーの累積を捉えることができる。
設計に関する洞察： このフレームワークを様々なベースラインに適用することで、以下のことを実証している：
- アクション予測は、大規模および小規模なモデルの両方にとって実行可能なタスクである。
- **棄却メカニズム（Abstention mechanisms）**は有用性のために極めて重要である。モデルは、確信度が低いときに予測を抑制することを学習しなければならない。
- 安価なトリガー（頻繁な予測試行）は、高い確信度が得られる瞬間を待つよりも効果的である。
- 操作シーケンスに対するファインチューニングにより、小規模なモデルがゼロショットの大型LLMに匹転することができる。

著者らは、このベンチマークとフレームワークが、スプレッドシートにおけるプロアクティブでモデルレスなアシスタントを開発するための必要な基礎を提供するものであると結論づけている。彼らは、この問題を解決するために、よりエネルギー消費の少ない方法（ファインチューニングされたSLMなど）の研究を明示的に推奨している。

A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets