OmniGAIA: Towards Native Omni-Modal AI Agents

本文提出了旨在评估跨视频、音频和图像模态深度推理与工具使用能力的 OmniGAIA 基准,并构建了基于主动感知与工具集成推理范式的原生全模态智能体 OmniAtlas,以推动面向真实场景的下一代全模态 AI 助手发展。

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Shijian Wang, Guanting Dong, Jiajie Jin, Hao Wang, Yinuo Wang, Ji-Rong Wen, Yuan Lu, Zhicheng Dou

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OmniGAIA 的新项目,以及一个名为 OmniAtlas 的超级智能助手。为了让你轻松理解,我们可以把这项研究想象成在训练一个**“全能型超级侦探”**。

1. 现在的 AI 有什么毛病?(现状)

目前的很多 AI 助手(多模态大模型)就像是一个**“偏科生”**。

  • 它们能看懂图片(视觉),也能听懂人说话(语言),甚至能听歌(音频)。
  • 但是,它们通常只能处理“图片 + 文字”或者“视频 + 文字”这种简单的组合。
  • 真正的世界是复杂的:就像看一部电影,你不仅要看到画面,还要听到背景里的对话、环境音,甚至需要结合画面里的文字(比如路牌),然后去网上查资料,最后才能解开一个谜题。
  • 现在的 AI 要么太“笨”,要么太“懒”,遇到这种需要同时听、看、想、查的复杂任务,往往就卡住了。

2. 他们做了什么?(OmniGAIA 基准测试)

为了解决这个问题,作者们设计了一个**“终极侦探考试”**,叫 OmniGAIA

  • 考试形式:不再是简单的“看图说话”。
    • 例子:给你一段视频,视频里有人在参观一个历史遗址,他指着远处的桥说:“这桥让我想起了《福禄双霸天》电影里的那座桥。”
    • 考题:这座桥叫什么名字?电影开始拍摄时,这座桥已经立了多少年?
  • 为什么难?
    • 你需要懂视频里的对话。
    • 你需要清视频里的地点(Joliet Iron Works)。
    • 你需要联想:电影里的桥和现实中的桥可能不一样,不能瞎猜。
    • 你需要动手:必须去网上搜索“Joliet Iron Works 附近的桥叫什么”、“电影什么时候拍的”、“桥是哪年建的”。
    • 最后还要算数:用电影拍摄年份减去建桥年份。
  • 目的:这个考试专门用来测试 AI 是否真的具备“全能”能力,而不是只会背答案。

3. 他们怎么造题的?(事件图谱)

造这种题很难,不能随便编。作者们发明了一种**“乐高积木式”的造题方法,叫“全模态事件图谱”**。

  • 比喻:想象你在整理一个复杂的案件。
    1. 先收集所有线索(视频、音频、图片里的细节)。
    2. 把这些线索像乐高积木一样拼成一张关系网(谁在什么时候说了什么,和什么有关)。
    3. 然后,故意把网里的某些关键积木**“模糊化”**(比如把桥的名字遮住,只说是“一座桥”)。
    4. 这样 AI 就不能直接查字典,必须像侦探一样,顺着关系网,一步步去查资料、推理,才能把模糊的积木拼回去,找到唯一的答案。

4. 他们造出了什么 AI?(OmniAtlas)

为了应对这个考试,作者们训练了一个叫 OmniAtlas 的 AI 助手。它有三个绝招:

  • 绝招一:主动感知(Active Perception)

    • 以前的 AI:像看一部 1 小时的电影,为了省时间,它可能把画面压缩得很模糊,或者只听大概,结果错过了关键细节。
    • OmniAtlas:像个挑剔的侦探。如果它觉得视频里某一段看不清,或者音频里某句话没听清,它会主动说:“等等,我要把视频倒回去,把那个时间段放大看清楚!”或者“我要把那段音频单独提出来再听一遍。”它不盲目地“吞”下所有内容,而是按需索取
  • 绝招二:工具整合推理(Tool-Integrated Reasoning)

    • 它知道什么时候该自己思考,什么时候该调用工具(比如上网搜索、运行代码计算器)。它不会死记硬背,而是像人一样,遇到不懂的就去查,算不出来的就用计算器。
  • 绝招三:错题本特训(OmniDPO)

    • 在训练时,如果 AI 做错了,普通的训练只是告诉它“错了,重来”。
    • OmniAtlas 的训练方法更高级:它会精准定位它是在哪一步错了(是看错了图?还是搜错了词?还是逻辑断了?),然后专门针对这个错误进行“纠错训练”。这就像老师不仅告诉你答案错了,还帮你分析是“粗心”还是“公式用错”,然后针对性地补习。

5. 结果怎么样?

  • 考试很难:即使是目前最强的商业 AI(Google 的 Gemini-3-Pro),在这个考试里也只能拿到 62.5 分(满分 100)。
  • 开源模型以前很弱:像 Qwen3-Omni 这样的开源模型,一开始只能拿 13.3 分
  • OmniAtlas 的魔法:经过他们的特训后,Qwen3-Omni 的成绩直接提升到了 20.8 分。虽然还没超过商业巨头,但进步巨大,证明了这种“主动感知 + 工具使用 + 精细纠错”的训练方法是非常有效的。

总结

这篇论文的核心思想就是:未来的 AI 助手不能只是个“百科全书”,它得是个“行动派侦探”。

它不仅要能看、能听,还得会主动去查资料、会动脑子推理、会利用工具解决问题。作者们通过设计一个超难的考试(OmniGAIA)和一套高效的训练方法(OmniAtlas),正在把开源的 AI 模型往这个方向推,让它们离真正的“全能生活助手”更近了一步。