EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

本文提出了 EgoCross 基准,旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测,揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性,并为构建更鲁棒的领域自适应视频理解系统奠定基础。

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EgoCross 的新“考试”,专门用来测试现在的 AI 机器人(多模态大语言模型)在第一人称视角(就像你戴着头盔或眼镜看到的画面)下,面对陌生领域时的反应能力。

为了让你更容易理解,我们可以把这篇论文的内容想象成一场**“超级驾驶员的跨界挑战赛”**。

1. 背景:AI 是个“只会开家用车”的新手

目前的 AI 模型(比如那些能看视频回答问题的高级机器人)非常聪明,但它们主要是在日常生活的数据上训练的。

  • 比喻:这就好比一个驾校学员,他在驾校里把“买菜、做饭、遛狗”这些日常场景练得滚瓜烂熟。如果问他“怎么切菜”或者“怎么扫地”,他都能对答如流。
  • 问题:但是,一旦把他扔进手术室工厂流水线极限运动赛场,或者让他戴上猫的眼睛看世界,他就彻底懵了。现有的测试题太简单,只考日常,掩盖了 AI 在真实复杂世界中“水土不服”的真相。

2. 核心创新:EgoCross(跨界大考)

为了解决这个问题,作者们设计了一套全新的“考题”,叫 EgoCross

  • 四大“陌生考场”
    1. 手术室:医生视角。这里需要分清各种精密的手术刀、镊子,不能把“止血钳”当成“剪刀”。
    2. 工业车间:工人视角。面对复杂的电路板维修,要能识别各种螺丝、电烙铁,还要懂操作流程。
    3. 极限运动:比如滑雪、跳伞。画面晃动剧烈、速度极快,还要在模糊中判断下一步往哪飞。
    4. 动物视角:比如猫或狗的眼睛。世界变了,高度变了,连“人”看起来都不同了。
  • 比喻:这就像把那个只会开家用车的学员,直接扔进了 F1 赛车场、深海潜水艇驾驶舱、甚至让一只猫来开飞机。这不仅仅是换个地方,而是整个规则、视野和逻辑都变了

3. 考试形式:不仅考“选择题”,还考“作文”

EgoCross 设计了两种提问方式,全方位打击:

  • CloseQA(选择题):就像做试卷,问“这是什么工具?A. 剪刀 B. 钳子..."。
  • OpenQA(开放式问答):就像写小作文,问“接下来会发生什么?”或者“猫什么时候碰到了塑料?”。
  • 比喻:以前的考试只考“选择题”,AI 靠猜也能蒙对几个。现在的考试还要求“写论文”,逼着 AI 必须真的看懂视频里的逻辑,不能瞎蒙。

4. 考试结果:AI 们“集体挂科”

作者找来了目前世界上最先进的 8 个 AI 模型(包括谷歌、OpenAI 的顶级模型,以及专门研究第一人称视角的模型)来参加考试。

  • 惨状
    • 日常领域(如 EgoSchema 数据集),这些 AI 能考 90 分以上。
    • 一到 EgoCross(跨界领域),分数直接腰斩,甚至跌到 30-40 分。
    • 最讽刺的是:那些专门为了“第一人称视角”训练的模型,在遇到“动物视角”或“手术视角”时,表现甚至比通用的 AI 还要差!
  • 比喻:这就像是一个在普通公路上开车的老司机,一上赛道就撞墙了。这说明现在的 AI 只是死记硬背了日常生活的套路,并没有真正学会举一反三适应新环境

5. 尝试“补习”:AI 能学会吗?

作者没有止步于批评,还尝试了三种“补习班”方法,看看能不能提高 AI 的成绩:

  1. 提示工程(Prompt Learning):给 AI 读一段“考前辅导”,告诉它“现在你在手术室,要注意..."。
    • 效果:有点用,但不够。
  2. 监督微调(SFT):给 AI 看一些正确答案的样本,让它模仿学习。
    • 效果:在某些领域(如工业)提升明显,但在动物视角提升不大(因为样本太少)。
  3. 强化学习(RL):让 AI 自己试错,做对了奖励,做错了惩罚,像训练小狗一样。
    • 效果这是目前最有效的! 平均成绩提升了 22%。
    • 比喻:就像让那个新手司机在模拟器里反复撞墙、反复练习,终于让他学会了怎么在 F1 赛道上漂移。

总结

这篇论文的核心思想是:别被 AI 在日常生活中的表现骗了。

目前的 AI 就像是一个**“偏科生”,只会做日常题。EgoCross 这个新基准就像一面照妖镜**,照出了它们在真实、复杂、专业领域(如医疗、工业)中的脆弱性。

未来的方向:我们需要训练出那种不仅能“买菜做饭”,还能“做手术、修飞机、甚至像猫一样思考”的全能型 AI。这篇论文就是为这个目标铺下的第一块基石。