EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

本文提出了 EventMemAgent,一种基于分层事件记忆和智能体强化学习的在线视频理解框架,通过双层记忆机制解决流媒体输入与模型上下文窗口受限的矛盾,并利用多粒度感知工具实现主动证据捕捉与长程推理。

Siwei Wen, Zhangcheng Wang, Xingjian Zhang, Lei Huang, Wenjun Wu

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EventMemAgent 的智能系统,它专门用来解决一个让 AI 非常头疼的问题:如何像人类一样,一边看永远播不完的视频,一边记住关键细节并回答问题。

想象一下,你正在看一场长达 24 小时的马拉松直播,而你的大脑(AI 模型)只能同时记住最近 10 分钟发生的事情。如果比赛进行了 23 小时,问你第 1 小时发生了什么,普通的大脑早就忘光了,或者因为记了太多无关紧要的废话而“死机”。

EventMemAgent 就是为了解决这个“记不住”和“记太乱”的问题而设计的。我们可以用三个生动的比喻来理解它的核心工作:

1. 聪明的“记事本”:分层记忆法

以前的 AI 看视频,就像是用一个固定长度的胶带去录视频。录满了就自动把最前面的剪掉,不管前面剪掉的是不是关键剧情。这导致很多重要的故事被切得支离破碎。

EventMemAgent 换了一种思路,它把记忆分成了两层:

  • 短期记忆(手里的便签):
    这就好比你在看直播时,手里只拿着最近发生的一个完整的小故事

    • 智能分段: 它不是按时间(比如每 30 秒)切分,而是按“事件”切分。比如,一个人“打开画本”是一个事件,不管这个过程是 5 秒还是 20 秒,它都会完整保留。只有当画面内容发生明显变化(比如从画画变成了喝水),它才认为“上一个故事讲完了”,开始新的故事。
    • 去重压缩: 如果某个事件里画面变化不大(比如一个人一直在发呆),它不会把每一帧都存下来,而是像抽卡一样,只保留最有代表性的几张图。这样既省空间,又不会漏掉重点。
  • 长期记忆(归档的图书馆):
    当“手里的便签”写满了,或者一个故事讲完了,它就会把刚才的故事整理成一张档案卡片,存入图书馆。

    • 这张卡片不仅包含文字描述(比如:“一个人打开画本,画了一只公鸡”),还包含关键画面(第一帧图)和变化日志(发生了什么转折)。
    • 这样,即使视频播了 100 个小时,只要你需要,它就能去图书馆里精准地找到那张卡片,而不是在茫茫视频流里瞎找。

2. 主动的“侦探”:多工具协作

以前的 AI 像个被动接收器,你问它什么,它就只能从它脑子里现有的东西里硬挤答案,挤不出来就说不知道。

EventMemAgent 则像个主动出击的侦探。当你问它问题时,它不会只靠“猜”,而是会主动调用工具箱:

  • 查档案(记忆搜索): “这个问题发生在很久以前吗?我去图书馆翻翻以前的记录。”
  • 放大镜(物体检测): “这个物体太小了看不清?我拿个放大镜仔细看看。”
  • 读字条(OCR 文字识别): “屏幕上那行小字是什么?我把它读出来。”

它能根据问题的类型,灵活决定是用“放大镜”还是去“查档案”,而不是死板地走流程。

3. 自我进化的“教练”:强化学习

最厉害的是,这个系统不是靠人类手把手教它“什么时候该用什么工具”的。

研究人员用了一种叫**“代理强化学习” (Agentic RL)** 的方法。这就好比给这个 AI 安排了一场实战演练

  • 让它不断做题,答对了给奖励,答错了就让它反思。
  • 经过成千上万次的练习,它自己就“悟”出了规律:遇到问过去的事,就主动去查档案;遇到看不清的细节,就主动用放大镜。
  • 最终,这种“主动思考”和“使用工具”的能力,变成了它与生俱来的本能,不需要每次都要人提醒。

总结:它为什么牛?

  • 省资源: 它不需要把整个视频都塞进脑子里,只存关键故事,所以哪怕视频无限长,它也能跑在普通的显卡上。
  • 记得准: 它按“事件”记忆,不会把连续的动作切断,也不会因为记了太多废话而遗忘重点。
  • 反应快: 它能像人一样,遇到不懂的就主动去“查资料”或“仔细看”,而不是只会瞎编。

一句话概括:
EventMemAgent 就像一个拥有无限记忆库、自带侦探工具箱、并且经过千锤百炼学会主动思考的超级视频管家。它不再是被动的录像机,而是真正能理解无限长视频的智能助手。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →