Agentic Very Long Video Understanding

本文提出了 EGAgent 框架,通过构建实体场景图并结合结构化搜索与多模态推理工具,有效解决了现有模型在处理全天候可穿戴设备产生的超长连续视频时上下文受限及多跳推理能力不足的问题,并在 EgoLifeQA 和 Video-MME (Long) 数据集上取得了领先或具有竞争力的性能。

Aniket Rege, Arka Sadhu, Yuliang Li, Kejie Li, Ramya Korlakai Vinayak, Yuning Chai, Yong Jae Lee, Hyo Jin Kim

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EGAgent 的超级智能助手,它专门擅长理解超长视频(比如一个人连续佩戴智能眼镜记录的一整天甚至一周的生活)。

想象一下,如果你戴着一副智能眼镜,从早上睁眼到晚上睡觉,每一秒都在录像。一周下来,这就是几千个小时的视频。现在的 AI 就像是一个只有“短记忆”的学生,看几秒视频还能记住,但让它看一周的视频再回答问题,它早就晕头转向,把细节忘得一干二净了。

EGAgent 就是为了解决这个问题而生的。我们可以用几个生动的比喻来理解它的工作原理:

1. 核心痛点:大海捞针 vs. 智能索引

  • 传统方法(大海捞针): 以前的 AI 试图把一周的视频全部塞进脑子里(或者把视频切成很多小段),然后试图从中找答案。这就像让你在一座巨大的图书馆里,不看书名,只凭感觉去翻几万本书找一句话,效率极低且容易出错。
  • EGAgent 的方法(智能索引): EGAgent 不直接“死记硬背”视频画面。它像是一个超级图书管理员,在视频播放的同时,迅速整理出一本**“人物关系与事件日记”(这就是论文里的实体场景图,Entity Scene Graph**)。

2. 核心魔法:人物关系日记(实体场景图)

想象 EGAgent 在后台默默做笔记,它不记录每一帧画面,而是记录关键信息:

  • 谁(节点): 比如“杰克”、“露西娅”、“咖啡杯”。
  • 做了什么(边): 比如“杰克露西娅说话"、“杰克使用咖啡杯”。
  • 什么时候(时间戳): 比如“在周二下午 3 点,持续了 2 分钟”。

这本“日记”把杂乱的视频流变成了结构清晰的数据库。当你问:“上周二谁和我一起喝了咖啡?”它不需要重看视频,直接查这本“日记”就能知道答案。

3. 工作流程:像侦探一样思考(代理框架)

EGAgent 不是一个只会搜索的机器,它是一个拥有“侦探思维”的代理(Agent)。当用户提出一个复杂问题时(例如:“上周二我最后和谁说话了?当时我们在哪?”),EGAgent 会这样工作:

  • 第一步:拆解任务(规划者)
    它不会直接回答,而是像侦探一样把大问题拆成小任务:

    • 任务 A:找出上周二所有“说话”的事件。
    • 任务 B:找出当时“杰克”和谁在一起。
    • 任务 C:确认当时的地点。
  • 第二步:多管齐下(工具人)
    为了完成这些任务,它有三个“超级工具”:

    1. 视觉搜索(眼睛): 快速扫描视频画面,找“喝咖啡”或“在厨房”的画面。
    2. 语音搜索(耳朵): 搜索录音转文字的记录,找“杰克”说过的话。
    3. 关系日记(大脑): 查询上面提到的“人物关系日记”,直接定位“杰克”和“露西娅”在周二下午的互动记录。
  • 第三步:拼凑真相(分析者)
    它把从眼睛、耳朵和日记里找到的线索拼在一起,进行逻辑推理。比如,日记说“杰克和露西娅在周二下午 3 点说话”,视觉搜索确认了当时他们在厨房,语音搜索听到了他们在讨论咖啡。

  • 第四步:给出答案(最终回答)
    综合所有线索,它自信地回答:“上周二下午 3 点,你在厨房和露西娅一起喝了咖啡。”

4. 为什么它很厉害?

  • 记性超好: 它能处理长达数周的视频,而不会像传统 AI 那样“断片”。
  • 逻辑强: 它能回答需要跨天推理的问题,比如“这周我一共和谁喝了三次咖啡?”(这需要把分散在不同天的记录汇总起来)。
  • 效率高: 它不需要把整个视频都读一遍,而是像查字典一样,直接跳到相关的时间点和人物。

总结

简单来说,EGAgent 就是给 AI 装了一个**“长期记忆笔记本”“侦探思维”。它不再试图记住视频里的每一粒灰尘,而是学会了记录谁在什么时候和谁做了什么**。

这项技术对于未来的全天候个人 AI 助手(比如智能眼镜)至关重要。想象一下,当你戴上智能眼镜,你的 AI 助手不仅能记得你昨天把钥匙放哪了,还能记得你上周二和谁聊过天、这周的习惯是什么,真正成为一个懂你、记得你所有生活细节的贴心伙伴。