TrajTok: Learning Trajectory Tokens enables better Video Understanding

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TrajTok 的新发明，它就像是为视频理解模型打造的一副“智能眼镜”，能让 AI 看视频时不再“走马观花”，而是真正“看懂”了画面里发生了什么。

为了让你轻松理解，我们可以把视频理解的过程想象成**“阅读一本厚厚的书”**。

1. 以前的方法：笨拙的“逐字扫描”

传统的视频 AI（比如以前的 ViT 模型）在看视频时，就像是一个死板的扫描仪。

怎么做： 它把每一帧画面切成无数个微小的正方形（就像把书撕成无数个小方块），不管这些方块里是天空、墙壁还是正在跳舞的人，它都一视同仁地扫描。
问题： 这产生了海量的“废话”。比如，背景里静止的墙壁被切成了几千个方块，但里面其实没有任何新信息。这导致 AI 需要处理的数据量巨大，既费电又慢，就像为了读懂一个故事，非要先把整本书的每一个标点符号都数一遍。

2. 之前的“聪明”尝试：依赖“外包”的导游

最近有一种新方法（TrajViT），试图只关注画面里移动的物体（比如人的轨迹）。

怎么做： 它试图把视频里的人或车“圈”出来，只记录这些“主角”的运动路线。
问题： 这个方法虽然聪明，但它太依赖“外包”了。它需要调用一个非常慢、非常复杂的第三方“导游”（外部追踪算法）先跑一遍，把谁是谁、谁在动都标好，然后再交给 AI 学习。
- 这就好比你想读故事，必须先请一个慢吞吞的翻译官把书里的角色名字一个个圈出来，翻译官太慢了，而且他圈得对不对，完全取决于他，AI 自己学不到怎么圈。

3. TrajTok 的突破：AI 自己学会了“抓重点”

TrajTok 的核心创新在于：它不再依赖外包，而是让 AI 自己学会如何“抓重点”。

我们可以用三个生动的比喻来理解它的工作原理：

🎯 比喻一：从“切蛋糕”变成“找主角”

以前的方法是把视频切成均匀的“蛋糕块”（Patch），不管有没有奶油（重要信息），每块都吃。
TrajTok 则像一个经验丰富的导演。它不看背景，直接盯着画面里**“谁在动”**。

如果画面里一个人在跳舞，它不会把背景切得粉碎，而是直接给这个舞者生成一个**“轨迹令牌”**（Token）。
这个令牌就像是一个**“智能标签”**，它自动把舞者从头到脚、从开始到结束的所有动作打包成一个整体。
好处： 视频越长，背景越复杂，它越能省劲，因为它只关注“主角”。

🧩 比喻二：像“俄罗斯套娃”一样灵活

以前的方法，不管物体多复杂，都只能给一个“标签”。
TrajTok 引入了**“俄罗斯套娃”（Matryoshka）**机制：

如果一个物体很简单（比如一个静止的球），它就只给1 个标签。
如果一个物体很复杂（比如一个人在做高难度的体操，动作多变），它就自动给2 个、4 个甚至更多的标签，把细节拆得更细。
好处： 它非常灵活，既不会浪费算力去描述简单的背景，也不会因为信息太少而看不懂复杂的动作。

🤝 比喻三：不仅是“翻译”，还是“桥梁”

TrajTok 不仅仅是一个用来处理视频的“翻译官”，它还是一个万能连接器：

作为“预训练老师” (TrajViT2)： 它可以从头教 AI 怎么理解视频，效果比以前的方法都好，而且速度更快。
作为“插件” (TrajAdapter)： 如果你已经有一个很厉害的 AI 模型，但不懂视频，你只需要把 TrajTok 像**“插件”**一样插进去，它就能帮旧模型瞬间理解视频里的物体运动，不用重新训练整个大脑。
作为“翻译桥梁” (TrajVLM)： 在让 AI 回答视频问题时（比如“视频里那个人最后去了哪里？”），TrajTok 能把视频里的视觉信息整理成清晰的“故事线”，再交给语言模型去回答。特别是在看长视频时，它能帮 AI 记住很久以前的细节，不会“看完就忘”。

总结：为什么这很重要？

想象一下，如果你要教一个小孩看视频：

旧方法是让他盯着屏幕上的每一个像素点看，累得半死还记不住重点。
TrajTok 则是教他：“别管背景，盯着那个穿红衣服的人，看他从哪走到哪，做了什么动作。”

TrajTok 的三大成就：

快：省去了繁琐的外部步骤，AI 自己就能边看边学。
准：它生成的“标签”更符合人类的直觉（关注物体和动作），所以在各种测试中（分类、检索、问答）都拿了第一名。
省：它能把视频压缩成很少的“精华包”，让 AI 处理长视频变得像看短剧一样轻松。

简单来说，TrajTok 让 AI 从“死记硬背”变成了“理解剧情”，这是视频人工智能迈向更智能、更高效的一大步。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了 TrajTok，一种用于视频理解的端到端、可微分的轨迹令牌（Trajectory Tokens）学习模块。它旨在解决传统视频模型中基于补丁（Patch-based）的令牌化方法带来的冗余和效率低下问题，同时克服了现有基于轨迹的方法依赖缓慢、不可微的外部流水线的问题。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

传统方法的局限性：当前的视频 Transformer 模型通常将视频分割为固定的时空补丁（Space-time patches）。这种方法随着视频分辨率和长度的增加，会产生大量冗余令牌，导致严重的内存瓶颈和计算效率低下。
现有轨迹方法的缺陷：虽然基于轨迹（Trajectory-based）的令牌化（如 TrajViT）通过将视频时长与令牌数量解耦，显著减少了冗余并提升了性能，但它们严重依赖外部、非可微分的分割和跟踪流水线（如 SAM/SAM2）。
- 这些外部流水线计算缓慢，增加了推理延迟。
- 它们是任务无关的（task-agnostic），生成的轨迹粒度是固定的，无法根据下游任务的具体需求（如需要精细的身体部位 vs. 整体舞者）进行自适应调整。
- 无法与主网络进行端到端的联合训练。

2. 核心方法论 (Methodology)

TrajTok 是一个完全集成在视频模型中的模块，能够端到端地学习并生成隐式的轨迹令牌。其核心架构包含两个可微分组件：

A. 通用分割器 (Universal Segmenter)

功能：在单次前向传播中，对视频像素进行时空隐式聚类，直接生成物体轨迹掩码。
机制：
- 使用轻量级的 Patch Encoder（如 ConvNeXt）提取高分辨率特征。
- 引入一组可学习的潜在查询（Learnable Latent Queries）作为聚类原型。
- 通过 Perceiver 层 和交叉注意力机制，让查询关注密集特征。
- 应用 1D 旋转位置编码 (RoPE) 以处理可变帧数并编码时空结构。
- 通过 Softmax 计算查询与特征的相似度，生成软分割掩码（Soft Segmentation Masks）。
训练策略：优先于下游任务的适应性，而非追求像素级的完美分割精度。使用 Dice Loss 和 Focal Loss 的组合，旨在发现所有物体区域，而非严格的像素分类。

B. 轨迹编码器 (Trajectory Encoder)

功能：将分割出的区域聚合为紧凑的潜在令牌。
机制：
- 软聚合：利用软掩码加权聚合特征，生成初始轨迹嵌入（ $z_{init}$ ），确保梯度可以回传至分割器。
- 嵌入细化：使用第二个 Perceiver 模块，利用硬掩码（Hard Masks）进行掩码交叉注意力，以恢复特定轨迹区域的细粒度运动和纹理细节。
自适应令牌数量 (Adaptive Token Number)：
- 受 Matryoshka Representations 启发，允许每个轨迹生成 $n \in \{1, 2, 4\}$ 个令牌。
- 通过随机采样 $n$ 进行训练，使模型能适应不同的计算预算。
- 使用傅里叶位置嵌入初始化子查询，以鼓励不同子令牌提取轨迹的不同方面（多样性）。

3. 三种应用场景 (Versatility)

论文展示了 TrajTok 的三种不同应用模式：

TrajViT2 (从头预训练)：将 TrajTok 作为视觉编码器的一部分，与 Transformer 联合训练（使用 CLIP 目标）。直接处理原始视频像素。
TrajAdapter (特征适配器)：作为即插即用模块，插入到预训练的 ViT 之后。将密集的 Patch 特征重组为轨迹令牌，用于下游探测（Probing）任务，无需全量微调。
TrajVLM (多模态连接器)：作为视觉编码器（ViT）与大语言模型（LLM）之间的对齐连接器，替代传统的 Patch Pooling，用于视频问答（VideoQA）。

4. 主要实验结果 (Results)

A. TrajViT2 (视频编码器)

性能提升：在 Kinetics-400 和 Something-Something V2 (SSv2) 等分类基准上，TrajViT2 分别比标准 ViT 高出 +4.8% 和 +4.1%，且在检索任务上也全面超越基线。
可扩展性：随着训练数据量从 1M 增加到 8M，TrajViT2 的性能提升趋势明显优于 TrajViT（后者在大数据量下收益递减），证明了端到端自适应分割的优势。
效率：推理 FLOPs 与最先进的令牌合并方法（如 ViViT）相当，远优于基于 Patch 的 ViT3D 和依赖外部流水线的 TrajViT。

B. TrajAdapter (特征探测)

在 VideoMAE-v2 和 V-JEPA2 等预训练骨干网络上，TrajAdapter 显著提升了线性探测和注意力探测的准确率（例如在 K400 上达到 82.5%），证明了轨迹先验对特征重组的有效性。

C. TrajVLM (视频语言模型)

长视频推理：在 LongVideoBench 和 LVBench 等长视频基准上，TrajVLM 比基于 Patch Pooling 的基线模型高出 +8.8% 和 +5.4%。
原因：TrajTok 生成的语义结构化令牌减少了冗余，更好地支持了长距离推理。

5. 关键贡献 (Key Contributions)

端到端轨迹令牌化：提出了首个完全可微分、端到端训练的轨迹令牌生成器，摆脱了对缓慢外部分割/跟踪流水线的依赖。
任务自适应粒度：通过联合训练，TrajTok 能根据下游任务需求动态调整轨迹的语义粒度（例如，舞蹈动作可能需要身体部位级别的轨迹，而群体识别则需要整体轨迹）。
效率与性能的平衡：在大幅减少令牌数量（降低计算量）的同时，实现了超越传统 Patch 方法和现有轨迹方法的 SOTA 性能。
通用性验证：证明了该模块在预训练、特征适配和多模态对齐三种不同场景下的有效性和通用性。

6. 意义与影响 (Significance)

范式转变：TrajTok 挑战了视频理解中“固定网格 Patch"的主导地位，证明了基于对象轨迹的令牌化是更高效且符合人类感知原理的替代方案。
长视频理解：特别针对长视频推理中的冗余问题提供了有效解决方案，为未来的长视频大模型（Long-context Video LLMs）提供了新的架构思路。
工程价值：通过去除外部依赖，显著降低了推理延迟和系统复杂性，使得基于轨迹的视频模型更具实际部署价值。

总结：TrajTok 通过引入一个轻量级、可学习的隐式轨迹分割器，成功将视频令牌化从“固定网格”推向“语义轨迹”，在保持高效率的同时显著提升了视频理解的性能，特别是在长视频和复杂动态场景下表现卓越。