Talk to Your Slides: High-Efficiency Slide Editing via Language-Driven Structured Data Manipulation

本文提出了名为"Talk-to-Your-Slides"的高效演示文稿编辑代理,该方法通过语言驱动的结构化数据操作而非视觉模态来直接修改底层对象模型,从而在文本与格式任务中实现了比基于 GUI 的基线方法更快的处理速度、更高的指令遵循度及更低的成本,并配套发布了包含 379 条指令的 TSBench 基准数据集。

Kyudan Jung, Hojun Cho, Jooyeol Yun, Soyoung Yang, Jaehyeok Jang, Jaegul Choo

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 "TALK TO YOUR SLIDES"(和你的幻灯片对话) 的新系统。简单来说,它就是一个超级高效的 PPT 编辑机器人,但它干活的方式和我们平时想象的“看屏幕、点鼠标”完全不同。

为了让你更容易理解,我们可以用几个生动的比喻来拆解它的核心思想:

1. 核心痛点:为什么现在的 PPT 编辑这么累?

想象一下,你有一本 50 页的 PPT,需要把里面的韩文全部翻译成英文,还要保持格式不变。

  • 人工操作(Manual): 就像你拿着放大镜,一页一页地看,手动打字、调整字体、移动图片。这就像用手工刻字,既慢又容易出错,还得花好几天。
  • 现有的 AI 助手(GUI Agent): 现在的 AI(比如 UFO)就像是一个戴着 VR 眼镜的虚拟员工。它看着你的电脑屏幕(就像看照片一样),试图用“手”去点击菜单、打字。
    • 缺点: 它看得很费劲(处理图片很消耗算力),而且容易看错字(OCR 识别错误)。就像那个戴 VR 眼镜的员工,有时候会把“红色”看成“粉色”,或者把“加粗”点成了“斜体”。而且因为它要“看”屏幕,速度很慢,成本很高。

2. 我们的新方案:直接“读心”而不是“看脸”

这篇论文提出的新方法,不再让 AI 去“看”屏幕上的像素点,而是让它直接读取 PPT 文件内部的“源代码”和“数据库”

  • 比喻:从“修图”到“改代码”
    • 旧方法(看图): 就像你要修改一张照片里的文字,你得用修图软件把原来的字涂掉,再打上新字。这很容易把背景弄花,或者字体对不齐。
    • 新方法(读结构): 就像你直接打开了 Word 文档的后台数据库。你不需要看字长什么样,你直接告诉系统:“把第 3 页第 2 行的文字内容改成‘你好’"。系统直接去改那个数据,原来的字体、颜色、背景、位置,全部原封不动地保留

3. 这个机器人是怎么工作的?(四层架构)

这个系统像一个精密的工厂流水线,分四个步骤:

  1. 理解指令(大脑):
    • 你输入:“把第 1 页到第 50 页的标题都翻译成英文。”
    • 系统先听懂你的话,把它拆解成具体的任务清单(比如:任务 A:改第 1 页标题;任务 B:改第 2 页标题...)。
  2. 理解文档(眼睛):
    • 它不截图,而是直接打开 PPT 文件,像查字典一样,把每一页里有什么文字、什么图片、什么形状,全部整理成一份结构化的清单(JSON 格式)
    • 关键点: 它能分清一段文字里,哪部分是加粗的,哪部分是红色的,哪怕它们在一个文本框里。
  3. 编辑内容(双手):
    • 根据任务清单,系统修改那份“结构化清单”。比如把清单里的“韩文”替换成“英文”,但保留“加粗”和“红色”的标记。
  4. 生成代码(执行):
    • 最后,系统把修改好的清单,自动翻译成一段Python 代码
    • 这段代码直接指挥 PowerPoint 软件:“嘿,把第 1 页的标题内容换成这个,别动其他东西!”
    • 如果有错误(比如代码写错了),它还会自我反思,自动修正代码再试一次,直到成功。

4. 效果有多好?(数据说话)

论文通过实验对比了三种方法(人工、看图 AI、我们的方法):

  • 速度: 我们的方法比“看图 AI"快了 34%。就像从“骑自行车”升级到了“开高铁”。
  • 准确度: 指令遵循度提高了 34%。因为它直接改数据,不会像看图 AI 那样把“红色”看成“粉色”。
  • 成本: 便宜了 87%。因为它不需要昂贵的显卡去处理图片,只需要处理文字数据。
  • 批量处理: 处理 50 页的 PPT,人工要几天,看图 AI 要很贵,而我们的方法只要 3 小时,花费不到 2 美元

5. 它的局限性(它不是万能的)

虽然它很强,但也有短板:

  • 比喻: 它像一个精通数据的工程师,但不像一个有艺术审美的画家
  • 如果指令是“把这张图缩小一点,让它看起来更平衡”,这种需要视觉感知审美判断的任务,它可能不如看图 AI 做得好。因为它看不见“美不美”,只能看见“数据”。
  • 未来方向: 作者建议,未来的完美系统应该是“工程师 + 画家”的结合:用这个高效的方法处理 90% 的批量文字和格式修改,只在最后需要审美判断时,调用视觉 AI 看一眼。

总结

"TALK TO YOUR SLIDES" 就像给 PPT 编辑装上了一个**“透视眼”和“直接操作手”**。它不再笨拙地对着屏幕指指点点,而是直接潜入 PPT 的底层数据,用语言指挥代码,瞬间完成那些枯燥、重复、大规模的修改工作。

这不仅让编辑 PPT 变得更快、更便宜,而且更精准,让 AI 真正成为了处理文档的得力助手,而不是一个只会“看屏幕”的笨拙学徒。