Talk to Your Slides: High-Efficiency Slide Editing via Language-Driven Structured Data Manipulation

本論文は、マルチモーダル LLM に基づく GUI ベースのアプローチの計算コストや遅延の課題を克服し、スライドの内部オブジェクトモデルを言語駆動で操作する「Talk-to-Your-Slides」を提案し、テキスト中心や書式設定タスクにおいて処理速度、指示忠実度、コスト面で大幅な改善を実現するとともに、TSBench という新規ベンチマークを公開したことを述べています。

Kyudan Jung, Hojun Cho, Jooyeol Yun, Soyoung Yang, Jaehyeok Jang, Jaegul Choo

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「プレゼンテーションのスライド編集を、人間が手作業でやるよりも、はるかに速く、安く、正確にやる新しい AI の方法」**を紹介しています。

タイトルは**「TALK TO YOUR SLIDES(スライドと会話しよう)」**です。

わかりやすくするために、いくつかの比喩を使って説明しますね。

1. 従来の方法 vs 新しい方法:「目で見ている」か「中身を読んでいる」か

スライド(パワーポイント)を編集する際、これまでの AI は**「人間の目」**のように振る舞っていました。

  • 従来の AI(GUI エージェント):
    スクリーンショット(画面の画像)を撮り、「あ、ここに赤い文字があるな」「ここは青い背景だ」と画像として認識して、マウスでクリックしたり文字を消したりします。

    • デメリット: 画像を読み解くのに時間がかかり、計算コスト(お金)が高いです。また、文字が少し崩れていたり、複雑なレイアウトだと「何と何の関係かわからない」と間違うことがあります。まるで、**「料理の完成写真を見て、レシピを推測して料理を作ろうとしている」**ようなものです。
  • 新しい AI(TALK TO YOUR SLIDES):
    この AI は**「料理のレシピ(データ)」そのもの**を直接読みます。

    • 仕組み: スライドは実は「画像」ではなく、XML という**「構造データ(レシピ)」**の集まりでできています。この AI は、画像を見るのではなく、その「レシピ(データ)」を直接読み取り、「3 枚目のスライドの 2 行目を英語に書き換えて」「太字にして」という命令を、データ構造を操作するコードに変換して実行します。
    • メリット: 画像を読み解く必要がないので、爆速で、圧倒的に安くミスもほとんどありません。これは**「レシピ(データ)を直接見て、必要な材料だけを入れ替える」**ようなものです。

2. 具体的な効果:「50 枚のスライド」を翻訳する例

論文には、50 枚ある講義スライドを「韓国語から英語」に翻訳する例が出ています。

  • 人間の手作業: 数日かかり、大学院生の人件費がかかります。
  • 従来の AI(画像を見るタイプ): 時間はかかりますが、コストも高くつきます(画面を何度も見て、クリックして…)。
  • 新しい AI(データ操作タイプ):
    • 時間: 約 3 時間(従来の AI の半分以下)。
    • コスト: 約 1.84 ドル(従来の AI の約 1/3)。
    • 精度: 指示通りに正確にやってくれる確率が 34% 向上。

まるで、**「1 枚ずつ手書きで書き写す」のではなく、「コピー&ペーストで一括置換する」**ような効率化です。

3. 4 つのステップ:「翻訳者」から「職人」へ

このシステムは、4 つの役割を持つチームのように動いています。

  1. 指示理解(翻訳者): ユーザーの「スライドのタイトルを赤くして」という言葉を、具体的な手順(「2 枚目のタイトルを赤く」)に翻訳します。
  2. 文書理解(検査員): スライドの「レシピ(データ)」を詳しく読み込み、「ここは太字の文字だ」「ここは画像だ」とリストアップします。
  3. 文書編集(編集者): 指示とリストを照らし合わせ、「ここを赤くする」という新しいレシピ(データ)を作ります。
  4. コード生成(職人): その新しいレシピを、パワーポイントが理解できる「命令コード(Python)」に変換し、実際にスライドを修正します。

4. 弱点と未来:「料理の味」までわかるか?

この方法は「データ操作」が得意なので、**「文字の修正」「色の変更」「レイアウトの整列」**などは完璧です。

しかし、**「この写真の雰囲気が寂しいから、もっと華やかにして」といった、「見た目の雰囲気」や「芸術的な判断」**が必要な場合は、まだ苦手です。データ上は「画像ファイルがある」だけで、その画像が「美しいか」まではデータからは読み取れないからです。

今後の展望:
「データ操作の速さ」と「画像を見る芸術的なセンス」を両方持った**「ハイブリッドな AI」**を作ることが次の目標です。大部分の作業は速いデータ操作で済ませ、最後の仕上げだけ画像を見て調整する、そんなイメージです。

まとめ

この論文は、**「AI にスライドを編集させるなら、画面を『見る』のではなく、中身の『データ』を直接『触る』方が、圧倒的に速くて安くて正確だ」**ということを証明しました。

これにより、今後、膨大なスライドの修正や翻訳が、人間の手間を大幅に減らし、誰でも簡単にできるようになることが期待されています。