From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

本文介绍了名为 M2AD 的家具组装数据集,该数据集将操作手册与组装视频对齐,用于评估多模态大语言模型在技术任务中作为实时助手的推理能力、步骤追踪及手册引用表现,并揭示了当前模型在架构和硬件限制下的局限性及未来改进方向。

Federico Toschi, Nicolò Brunello, Andrea Sassella, Vincenzo Scotti, Mark James Carman

发布于 2026-03-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“教 AI 如何像真人师傅一样修家具”**的故事。

想象一下,你正在家里组装一个复杂的宜家(IKEA)衣柜。你手里拿着厚厚的说明书,看着一堆木板和螺丝,完全摸不着头脑。这时候,你希望有一个**“超级智能助手”**,它能通过摄像头看到你正在做什么,同时看着说明书,实时告诉你:“嘿,你刚才那个螺丝拧错了,应该看第 5 页,而且你现在的进度是对的,继续下一步!”

这篇论文就是为了解决“如何训练和测试这个超级助手”而诞生的。

1. 核心问题:AI 太“笨”了,看不懂“图文对照”

现在的 AI(大语言模型)很聪明,能写诗、能聊天。但如果给它看一段组装视频,再给它看一张说明书的截图,问它:“你现在做到哪一步了?说明书上哪一页是对的?”很多 AI 就会“抓瞎”。

以前的测试数据集,要么太简单(只让 AI 认个动作),要么标注得太繁琐(需要人工把视频里的每一帧都标清楚,像给电影做字幕一样累)。这就像教学生做题,老师把答案都写在旁边了,学生根本不需要动脑子。

2. 解决方案:M2AD 数据集(“说明书到行动”大考)

作者们做了一个新的“考卷”,叫 M2AD

  • 素材来源:他们收集了 50 多种宜家家具的真实组装视频(来自 YouTube),并把这些视频和对应的官方说明书一一对应起来。
  • 考卷内容:视频里的人正在组装家具,旁边放着说明书。
  • 考试题目
    1. 进度条检测:看着视频,问 AI:“这一步做完了吗?”
    2. 找对页码:给 AI 看视频片段和两页说明书(一页是对的,一页是干扰项),问 AI:“哪一页在讲这个动作?”
    3. 猜步骤号:给 AI 看视频和两页说明书,问 AI:“现在具体是第几步?”

这个数据集的特别之处在于:它不像以前那样把视频切得粉碎、标得密密麻麻。它更像是一个**“真实场景”**,要求 AI 自己去理解视频里的画面和说明书上的文字是如何对应的,就像真正的师傅一样。

3. 实验过程:让 AI 上考场

作者们找来了市面上能免费跑在普通家用电脑(比如带个高端显卡的台式机)上的各种 AI 模型,让它们来做这套题。这就像是在普通家庭环境下测试这些“实习生”的能力,而不是在超级计算机上。

4. 考试结果:有惊喜,也有“挂科”

  • 好消息:有些 AI 模型(比如 LLaVa-Video 和 Qwen2-VL)表现不错,能大概看出视频和说明书的对应关系。这说明 AI 开始有点“悟性”了,不需要老师手把手教每一帧,自己也能学会看图文。
  • 坏消息:大部分模型还是**“挂科”**了。
    • 记不住:它们很难记住视频里一连串的动作,看着看着就忘了刚才干了啥。
    • 分不清:它们很难把“说明书上的图画”和“现实中的木头”联系起来。就像让你看一张“苹果”的简笔画,然后让你在一堆真苹果里指出来,很多 AI 会晕头转向。
    • 硬件限制:因为是在普通电脑上跑,AI 的“脑子”(显存)不够大,只能看很短的视频片段,没法像人一样拥有“全局视野”。

5. 一个特别的“优等生”

有一个叫 MolMo 的模型表现很亮眼。它虽然不懂复杂的“图文交错”推理,但它有一个绝招:“指路”
它就像个调皮但聪明的孩子,看着屏幕说:“看左边,那是说明书;看右边,那是视频。左边的图指着右边的东西,所以是这一步!”它利用这种空间位置感,硬是把题做对了。这给未来的 AI 设计指了一条新路:让 AI 学会“指指点点”可能比死记硬背更有效。

6. 总结与未来:AI 助手还在“实习期”

这篇论文告诉我们:

  • 现状:现在的 AI 助手在复杂的组装任务上,还像个刚入职的实习生。它能看懂大概,但经常搞错细节,或者看着看着就“断片”了。
  • 挑战:要让 AI 真正像专家一样,不仅需要更聪明的算法,还需要解决“看太多东西记不住”的硬件瓶颈。
  • 未来:我们需要训练 AI 学会**“多视角思考”(既看视频又看说明书),并且学会“指认物体”**。只有这样,未来的 AI 才能真正走进千家万户,当你组装家具、修车甚至做手术时,它能像个经验丰富的老法师一样,在旁边给你最靠谱的建议。

一句话总结
作者们给 AI 出了一套“看图组装家具”的真题,发现现在的 AI 虽然有点小聪明,但离成为真正的“家庭维修大师”还有很长的路要走,未来的关键在于让 AI 学会像人一样,把眼睛看到的和脑子里的说明书真正“对上号”。