Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

本文提出了名为 MM-Lifelong 的长周期多模态数据集及递归多模态智能体(ReMA)基线,旨在解决现有模型在处理自然日常长视频时面临的上下文饱和与全局定位失效问题,从而推动多模态终身理解的研究。

Guo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的 AI 人工智能(特别是那些能看懂视频的大模型)出的一道“超级马拉松”难题,并给出了一套新的“跑步策略”。

我们可以把这篇论文的核心内容拆解成三个部分:发现了什么新问题造了什么新工具怎么跑赢了比赛

1. 发现了什么新问题?(从“看短片”到“过一生”)

以前的 AI 看视频,就像是在看电影预告片或者短视频

  • 旧模式:给你看一个 5 分钟的视频,问你里面发生了什么。AI 只要把这几分钟的内容记在脑子里(工作记忆),就能答对。
  • 新挑战:这篇论文说,真实的生活不是 5 分钟的短片,而是长达几个月甚至几年的连续直播
    • 比喻:想象一下,你让 AI 看一个主播连续直播了 51 天的视频(总共 100 多个小时)。
    • 难点:在这 51 天里,主播可能只在第 3 天唱了一首歌,第 40 天又唱了一次。中间隔了 30 多天,AI 的“脑子”(显存/上下文窗口)根本装不下这么多视频。如果强行把视频塞进去,AI 就会“脑子过载”,要么忘得一干二净,要么开始胡编乱造(幻觉)。

论文提出的新概念
他们定义了一个叫“终身视界”(Lifelong Horizon)的东西。

  • 观察时长(Tdur):你实际看了多久的视频(比如 100 小时)。
  • 物理时间跨度(Tspan):这些视频跨越了现实世界的多久(比如 51 天)。
  • 核心痛点:在真实生活中,Tspan 远大于 Tdur。中间有大量的“空白时间”(比如主播睡觉、去外地、没开摄像头)。AI 不仅要记住视频里的内容,还要能跨越这些空白,把第 1 天和第 50 天的事情联系起来。

2. 造了什么新工具?(MM-Lifelong 数据集)

为了测试 AI 到底能不能“活”这么久,作者们造了一个新数据集,叫 MM-Lifelong

  • 它是什么:一个包含 181.1 小时视频的“时间胶囊”。
  • 它有多长
    • 天级别:像是一个游戏玩家通关一天的完整录像。
    • 周级别:像是一个人的第一视角生活记录(吃饭、睡觉、工作)。
    • 月级别:像是一个网红主播断断续续直播了 51 天的录像(这是最难的,中间有很多天没播)。
  • 它的考题
    • 找针:在 100 个小时的视频里,找出主播在哪一秒唱了某首特定的歌?
    • 推理:主播在第一天穿的红衣服,和他在第 40 天去某个城市时穿的衣服,有什么关系?
    • 关键点:这些题目不能靠“猜”或者“背常识”,必须真的从视频里找证据。

3. 怎么跑赢了比赛?(ReMA 智能体)

作者测试了现在的各种顶级 AI 模型,发现它们都“翻车”了:

  • 直接硬看(End-to-End MLLM):试图把视频一股脑全塞进脑子里。结果就是内存爆炸,记不住重点,甚至开始胡言乱语。就像让你背下整本字典,然后问你第 3 页第 5 行的字,你肯定背不下来。
  • 简单的代理(Agentic Baselines):试图像人一样去“搜索”视频,但它们在处理这种长达数月的稀疏数据时,容易迷路,找不到关键线索。

作者提出的新方案:ReMA(递归多模态智能体)

ReMA 不像以前那样“死记硬背”,它更像是一个聪明的侦探图书管理员

  • 核心策略:递归记忆管理(Recursive Memory Management)

    • 比喻:想象你在读一本 1000 页的厚书(视频)。
      • 旧方法:试图把整本书背下来。
      • ReMA 方法
        1. 先读摘要:先把书分成很多小章节,每读完一章,就写一段摘要(Condensed Memory)记在笔记本上,然后把那章书扔掉(释放内存)。
        2. 遇到问题再翻书:当有人问“第 300 页那个角色后来怎么样了?”,ReMA 不会重新读整本书,而是先看笔记本上的摘要
        3. 精准定位:如果摘要里提到“他在第 300 页附近出现过”,ReMA 就会只去翻那几页(调用 MMInspect 工具),仔细查看细节。
        4. 更新笔记:看完细节后,把新的发现更新到笔记本上,然后继续回答。
  • 为什么它赢了

    • 它不会让 AI 的“脑子”塞满视频,而是把视频转化成了结构化的知识笔记
    • 它像人一样,“记不住细节,但记得住线索”。当需要细节时,它知道去哪里找,而不是盲目地重新看一遍。

总结

这篇论文告诉我们:

  1. 未来的 AI 不能只盯着短视频看,必须学会处理像“人生”一样漫长、充满空白和变化的视频流。
  2. 光靠“大”是不够的(把模型做大、把显存做大),如果方法不对,AI 还是会“脑死亡”。
  3. 聪明的“记忆管理”才是关键。未来的 AI 应该像侦探一样,懂得如何整理线索、建立索引,在需要的时候精准地调取记忆,而不是试图把整个世界都塞进脑子里。

一句话概括
以前的 AI 是“过目不忘但记不住长故事”的短视者;这篇论文教我们造了一个“会记笔记、会查档案、能跨越时间推理”的终身学习侦探。