From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“教 AI 如何像真人师傅一样修家具”**的故事。

想象一下，你正在家里组装一个复杂的宜家（IKEA）衣柜。你手里拿着厚厚的说明书，看着一堆木板和螺丝，完全摸不着头脑。这时候，你希望有一个**“超级智能助手”**，它能通过摄像头看到你正在做什么，同时看着说明书，实时告诉你：“嘿，你刚才那个螺丝拧错了，应该看第 5 页，而且你现在的进度是对的，继续下一步！”

这篇论文就是为了解决“如何训练和测试这个超级助手”而诞生的。

1. 核心问题：AI 太“笨”了，看不懂“图文对照”

现在的 AI（大语言模型）很聪明，能写诗、能聊天。但如果给它看一段组装视频，再给它看一张说明书的截图，问它：“你现在做到哪一步了？说明书上哪一页是对的？”很多 AI 就会“抓瞎”。

以前的测试数据集，要么太简单（只让 AI 认个动作），要么标注得太繁琐（需要人工把视频里的每一帧都标清楚，像给电影做字幕一样累）。这就像教学生做题，老师把答案都写在旁边了，学生根本不需要动脑子。

2. 解决方案：M2AD 数据集（“说明书到行动”大考）

作者们做了一个新的“考卷”，叫 M2AD。

素材来源：他们收集了 50 多种宜家家具的真实组装视频（来自 YouTube），并把这些视频和对应的官方说明书一一对应起来。
考卷内容：视频里的人正在组装家具，旁边放着说明书。
考试题目：
1. 进度条检测：看着视频，问 AI：“这一步做完了吗？”
2. 找对页码：给 AI 看视频片段和两页说明书（一页是对的，一页是干扰项），问 AI：“哪一页在讲这个动作？”
3. 猜步骤号：给 AI 看视频和两页说明书，问 AI：“现在具体是第几步？”

这个数据集的特别之处在于：它不像以前那样把视频切得粉碎、标得密密麻麻。它更像是一个**“真实场景”**，要求 AI 自己去理解视频里的画面和说明书上的文字是如何对应的，就像真正的师傅一样。

3. 实验过程：让 AI 上考场

作者们找来了市面上能免费跑在普通家用电脑（比如带个高端显卡的台式机）上的各种 AI 模型，让它们来做这套题。这就像是在普通家庭环境下测试这些“实习生”的能力，而不是在超级计算机上。

4. 考试结果：有惊喜，也有“挂科”

好消息：有些 AI 模型（比如 LLaVa-Video 和 Qwen2-VL）表现不错，能大概看出视频和说明书的对应关系。这说明 AI 开始有点“悟性”了，不需要老师手把手教每一帧，自己也能学会看图文。
坏消息：大部分模型还是**“挂科”**了。
- 记不住：它们很难记住视频里一连串的动作，看着看着就忘了刚才干了啥。
- 分不清：它们很难把“说明书上的图画”和“现实中的木头”联系起来。就像让你看一张“苹果”的简笔画，然后让你在一堆真苹果里指出来，很多 AI 会晕头转向。
- 硬件限制：因为是在普通电脑上跑，AI 的“脑子”（显存）不够大，只能看很短的视频片段，没法像人一样拥有“全局视野”。

5. 一个特别的“优等生”

有一个叫 MolMo 的模型表现很亮眼。它虽然不懂复杂的“图文交错”推理，但它有一个绝招：“指路”。
它就像个调皮但聪明的孩子，看着屏幕说：“看左边，那是说明书；看右边，那是视频。左边的图指着右边的东西，所以是这一步！”它利用这种空间位置感，硬是把题做对了。这给未来的 AI 设计指了一条新路：让 AI 学会“指指点点”可能比死记硬背更有效。

6. 总结与未来：AI 助手还在“实习期”

这篇论文告诉我们：

现状：现在的 AI 助手在复杂的组装任务上，还像个刚入职的实习生。它能看懂大概，但经常搞错细节，或者看着看着就“断片”了。
挑战：要让 AI 真正像专家一样，不仅需要更聪明的算法，还需要解决“看太多东西记不住”的硬件瓶颈。
未来：我们需要训练 AI 学会**“多视角思考”（既看视频又看说明书），并且学会“指认物体”**。只有这样，未来的 AI 才能真正走进千家万户，当你组装家具、修车甚至做手术时，它能像个经验丰富的老法师一样，在旁边给你最靠谱的建议。

一句话总结：
作者们给 AI 出了一套“看图组装家具”的真题，发现现在的 AI 虽然有点小聪明，但离成为真正的“家庭维修大师”还有很长的路要走，未来的关键在于让 AI 学会像人一样，把眼睛看到的和脑子里的说明书真正“对上号”。

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

1. 核心问题：AI 太“笨”了，看不懂“图文对照”

2. 解决方案：M2AD 数据集（“说明书到行动”大考）

3. 实验过程：让 AI 上考场

4. 考试结果：有惊喜，也有“挂科”

5. 一个特别的“优等生”

6. 总结与未来：AI 助手还在“实习期”

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 M2AD 数据集构建

2.2 实验设置

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与未来展望 (Significance & Future Work)

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

1. 核心问题：AI 太“笨”了，看不懂“图文对照”

2. 解决方案：M2AD 数据集（“说明书到行动”大考）

3. 实验过程：让 AI 上考场

4. 考试结果：有惊喜，也有“挂科”

5. 一个特别的“优等生”

6. 总结与未来：AI 助手还在“实习期”

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 M2AD 数据集构建

2.2 实验设置

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与未来展望 (Significance & Future Work)

类似论文

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Personalized Federated Sequential Recommender