TrajTok: Learning Trajectory Tokens enables better Video Understanding

本文提出了端到端视频分词模块 TrajTok,它通过统一的空间时间隐式聚类直接生成物体轨迹,在无需复杂外部跟踪的情况下显著提升了视频理解效率与性能,并成功应用于从预训练模型适配到长视频推理的多种场景。

Chenhao Zheng, Jieyu Zhang, Jianing Zhang, Weikai Huang, Ashutosh Kumar, Quan Kong, Oncel Tuzel, Chun-Liang Li, Ranjay Krishna

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TrajTok 的新发明,它就像是为视频理解模型打造的一副“智能眼镜”,能让 AI 看视频时不再“走马观花”,而是真正“看懂”了画面里发生了什么。

为了让你轻松理解,我们可以把视频理解的过程想象成**“阅读一本厚厚的书”**。

1. 以前的方法:笨拙的“逐字扫描”

传统的视频 AI(比如以前的 ViT 模型)在看视频时,就像是一个死板的扫描仪

  • 怎么做: 它把每一帧画面切成无数个微小的正方形(就像把书撕成无数个小方块),不管这些方块里是天空、墙壁还是正在跳舞的人,它都一视同仁地扫描。
  • 问题: 这产生了海量的“废话”。比如,背景里静止的墙壁被切成了几千个方块,但里面其实没有任何新信息。这导致 AI 需要处理的数据量巨大,既费电又慢,就像为了读懂一个故事,非要先把整本书的每一个标点符号都数一遍。

2. 之前的“聪明”尝试:依赖“外包”的导游

最近有一种新方法(TrajViT),试图只关注画面里移动的物体(比如人的轨迹)。

  • 怎么做: 它试图把视频里的人或车“圈”出来,只记录这些“主角”的运动路线。
  • 问题: 这个方法虽然聪明,但它太依赖“外包”了。它需要调用一个非常慢、非常复杂的第三方“导游”(外部追踪算法)先跑一遍,把谁是谁、谁在动都标好,然后再交给 AI 学习。
    • 这就好比你想读故事,必须先请一个慢吞吞的翻译官把书里的角色名字一个个圈出来,翻译官太慢了,而且他圈得对不对,完全取决于他,AI 自己学不到怎么圈。

3. TrajTok 的突破:AI 自己学会了“抓重点”

TrajTok 的核心创新在于:它不再依赖外包,而是让 AI 自己学会如何“抓重点”。

我们可以用三个生动的比喻来理解它的工作原理:

🎯 比喻一:从“切蛋糕”变成“找主角”

以前的方法是把视频切成均匀的“蛋糕块”(Patch),不管有没有奶油(重要信息),每块都吃。
TrajTok 则像一个经验丰富的导演。它不看背景,直接盯着画面里**“谁在动”**。

  • 如果画面里一个人在跳舞,它不会把背景切得粉碎,而是直接给这个舞者生成一个**“轨迹令牌”**(Token)。
  • 这个令牌就像是一个**“智能标签”**,它自动把舞者从头到脚、从开始到结束的所有动作打包成一个整体。
  • 好处: 视频越长,背景越复杂,它越能省劲,因为它只关注“主角”。

🧩 比喻二:像“俄罗斯套娃”一样灵活

以前的方法,不管物体多复杂,都只能给一个“标签”。
TrajTok 引入了**“俄罗斯套娃”(Matryoshka)**机制:

  • 如果一个物体很简单(比如一个静止的球),它就只给1 个标签。
  • 如果一个物体很复杂(比如一个人在做高难度的体操,动作多变),它就自动给2 个、4 个甚至更多的标签,把细节拆得更细。
  • 好处: 它非常灵活,既不会浪费算力去描述简单的背景,也不会因为信息太少而看不懂复杂的动作。

🤝 比喻三:不仅是“翻译”,还是“桥梁”

TrajTok 不仅仅是一个用来处理视频的“翻译官”,它还是一个万能连接器

  1. 作为“预训练老师” (TrajViT2): 它可以从头教 AI 怎么理解视频,效果比以前的方法都好,而且速度更快。
  2. 作为“插件” (TrajAdapter): 如果你已经有一个很厉害的 AI 模型,但不懂视频,你只需要把 TrajTok 像**“插件”**一样插进去,它就能帮旧模型瞬间理解视频里的物体运动,不用重新训练整个大脑。
  3. 作为“翻译桥梁” (TrajVLM): 在让 AI 回答视频问题时(比如“视频里那个人最后去了哪里?”),TrajTok 能把视频里的视觉信息整理成清晰的“故事线”,再交给语言模型去回答。特别是在看长视频时,它能帮 AI 记住很久以前的细节,不会“看完就忘”。

总结:为什么这很重要?

想象一下,如果你要教一个小孩看视频:

  • 旧方法是让他盯着屏幕上的每一个像素点看,累得半死还记不住重点。
  • TrajTok 则是教他:“别管背景,盯着那个穿红衣服的人,看他从哪走到哪,做了什么动作。”

TrajTok 的三大成就:

  1. 快: 省去了繁琐的外部步骤,AI 自己就能边看边学。
  2. 准: 它生成的“标签”更符合人类的直觉(关注物体和动作),所以在各种测试中(分类、检索、问答)都拿了第一名。
  3. 省: 它能把视频压缩成很少的“精华包”,让 AI 处理长视频变得像看短剧一样轻松。

简单来说,TrajTok 让 AI 从“死记硬背”变成了“理解剧情”,这是视频人工智能迈向更智能、更高效的一大步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →