DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DeformTrace 的新 AI 技术，它的任务是在视频和音频中精准地找出“造假”的部分。

想象一下，现在的 AI 造假技术（Deepfake）非常厉害，能把一段视频里的人脸换掉，或者把声音合成得一模一样。以前的检测方法就像是一个拿着放大镜的侦探，只能告诉你“这段视频是假的”，但很难告诉你“具体是哪一秒开始假的，哪一秒结束”。而 DeformTrace 的目标就是做一个超级侦探，不仅能告诉你“有假”，还能精准地画出“造假的时间线”。

为了让你更容易理解，我们可以把视频看作一条长长的河流，而造假的部分就像是河里混进去的几滴墨水。

1. 以前的方法遇到了什么困难？

以前的侦探（旧模型）在找墨水时遇到了三个大麻烦：

边界模糊：墨水晕开的地方和清水的交界处很难分清，侦探容易把“真水”误判为“假水”，或者漏掉一点墨水。
墨水太少：整条河里只有几滴墨水，大部分是清水。侦探如果一直盯着清水看，很容易忘记墨水的特征，导致对那几滴墨水“视而不见”。
记性不好：河流太长了，侦探如果只盯着眼前的一小段看，就记不住上游或下游发生了什么，导致找不到那些相隔很远的造假点。

2. DeformTrace 的三大“独门绝技”

为了解决这些问题，作者给侦探装备了三个神奇的法宝：

法宝一：可变形自我扫描 (Deformable Self-SSM) —— “会伸缩的探照灯”

传统做法：以前的侦探拿着一个固定大小的手电筒，只能照固定的范围。如果墨水晕开的边界超出了这个范围，他就照不到了。
DeformTrace 的做法：它给侦探装了一个智能探照灯。这个灯不是固定的，它可以根据情况自动伸缩和变形。
- 当它发现边界模糊时，灯就会自动变大，把周围模糊的区域都照清楚。
- 它不再死板地按秒数扫描，而是像灵活的触手一样，哪里可疑就重点照哪里。
- 效果：无论造假边界是清晰还是模糊，它都能精准地圈出来。

法宝二：中继令牌机制 (Relay Token Mechanism) —— “河流中的接力站”

传统做法：河流太长了，侦探从上游走到下游，中间走了很久，记忆就模糊了（这就是论文说的“长距离衰减”）。
DeformTrace 的做法：它在河流中每隔一段距离就设立一个**“中继站”（中继令牌）**。
- 侦探每走一段路，就把收集到的重要信息交给中继站。
- 中继站就像一个超级广播塔，把上游的信息瞬间广播给下游，或者把下游的信息传回上游。
- 效果：无论河流多长，信息都能无损传递。侦探永远记得上游发生了什么，不会因为距离远而“失忆”。

法宝三：可变形交叉扫描 (Deformable Cross-SSM) —— “带着通缉令的搜查队”

传统做法：侦探在河里漫无目的地找，容易把清水（正常内容）当成墨水，因为清水太多了，干扰了判断。
DeformTrace 的做法：它派出了几支**“搜查小队”（查询令牌），每支小队手里都拿着一张“通缉令”**（假设的造假特征）。
- 这些小队不关心整条河，它们只负责拿着通缉令，在河里专门寻找和通缉令匹配的目标。
- 它们把注意力集中在“可疑点”上，自动忽略掉那些无关的清水。
- 效果：即使造假的部分非常少（稀疏），搜查队也能像雷达一样精准锁定目标，不会被大量的正常内容干扰。

3. 这个技术有多牛？

更准：在找造假的时间点时，它比以前的方法更精准，能画出更细的时间线。
更快：以前的方法像是一个笨重的大象在跑步，又慢又耗电。DeformTrace 像是一只灵活的猎豹，用更少的计算资源（参数更少），跑得更快。
更稳：即使视频被压缩、加了噪点或者画面模糊（就像河水变得浑浊），它依然能准确找到造假部分，不容易被干扰。

总结

简单来说，DeformTrace 就是一个装备了智能探照灯、中继广播站和精准搜查队的超级侦探。它不再死板地扫描视频，而是像人一样灵活地关注重点，无论造假藏得有多深、边界有多模糊、或者视频有多长，它都能精准地把“假”的部分揪出来。

这项技术对于打击网络谣言、保护新闻真实性以及维护数字世界的安全，具有非常重要的意义。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于DeformTrace的论文技术总结，该模型旨在解决视频和音频中的**时序伪造定位（Temporal Forgery Localization, TFL）**问题。

1. 研究背景与问题定义

背景：
随着生成式 AI 的发展，逼真的多媒体伪造（Deepfake）日益增多。现有的工作多集中在二进制的伪造检测（判断视频是否伪造），而**时序伪造定位（TFL）**旨在精确定位视频中具体的伪造片段，具有更高的可解释性，对取证和安全至关重要。

现有挑战：
尽管状态空间模型（SSMs，如 Mamba）在长序列建模和推理效率上表现出色，但将其应用于 TFL 面临三大核心挑战：

边界模糊（Boundary Ambiguity）： 与动作检测中清晰的边界不同，伪造片段的起止时间往往模糊不清。标准 SSM 使用固定的状态更新，容易导致时间平滑，降低定位精度。
伪造稀疏性（Sparse Forgeries）： 大多数帧是真实的，SSM 的递归更新容易被真实模式主导，导致对稀疏伪造片段的敏感度不足。
长程建模受限（Limited Long-range Modeling）： 虽然 SSM 效率高，但存在长距离信息衰减（Long-range decay）问题，难以捕捉长视频中的全局上下文依赖。

2. 方法论：DeformTrace 架构

DeformTrace 提出了一种混合架构，结合了 Transformer 的全局建模能力和 SSM 的高效性，主要包含以下核心组件：

A. 整体架构

模型基于查询（Query-based）架构（参考 TadTR），包含：

特征提取器： 使用预训练的视觉和音频骨干网络提取多尺度特征。
编码器（Encoder）： 包含可变形自扫描（Deformable Self-Scanning）、前向 - 后向 SSM（FB SSM）和前馈网络。
解码器（Decoder）： 包含可变形交叉 SSM（DC-SSM）、多头自注意力、可变形交叉注意力和前馈网络，用于细化伪造片段预测。

B. 核心创新模块

可变形自状态空间模型 (Deformable Self-SSM, DS-SSM)
- 目的： 解决边界模糊问题。
- 机制： 首次将可变形动态感受野引入时序状态空间模型。不同于图像领域的 Deformable Mamba（需要分块），DS-SSM 利用视频/音频的时序连续性，在每个时间步预测可学习的时序偏移量（Offsets）。
- 效果： 允许模型动态采样语义相关的输入特征，而非局限于固定窗口，从而更精准地捕捉模糊的伪造边界，同时保持低计算复杂度。
中继令牌机制 (Relay Token Mechanism)
- 目的： 解决 SSM 的长程信息衰减问题。
- 机制： 受无线通信中继节点启发，在输入序列中均匀插入可学习的中继令牌（Relay Tokens）。这些令牌将序列划分为多个子空间，局部状态将信息传递给中继令牌，中继令牌再广播聚合信息到其他子空间。
- 辅助损失： 引入**增强损失（Enhance Loss）**鼓励中继令牌聚合邻域信息，**协作损失（Cooperation Loss）**减少中继令牌间的冗余，促进多样性。
- 效果： 有效扩展了感受野，缓解了长距离依赖衰减。
可变形交叉状态空间模型 (Deformable Cross-SSM, DC-SSM)
- 目的： 解决伪造稀疏性问题。
- 机制： 将每个潜在的伪造查询（Query）视为一个代理，动态地从主序列中检索与伪造相关的信息。
- 效果： 将全局状态空间划分为查询特定的子空间，减少了非伪造信息的累积，显著提高了对稀疏伪造片段的敏感度。

3. 主要贡献

DS-SSM： 首次将动态感受野引入时序状态空间模型，显著提升了模糊边界的定位精度。
中继令牌机制： 显式缓解了 SSM 的长程衰减问题，这是以往状态空间模型的关键局限。
DC-SSM： 首次将跨序列交互引入状态空间建模，增强了对稀疏伪造的敏感度。
统一混合架构： 成功融合了 Transformer 的全局建模优势与 SSM 的高效线性复杂度，实现了性能与效率的最佳平衡。

4. 实验结果

在两个主流数据集 LAV-DF 和 AV-Deepfake1M 上进行了广泛实验：

性能表现 (SOTA)：
- 在 LAV-DF 上，DeformTrace 在 mAP@0.95 和平均 mAP 等指标上达到最优，优于纯 Transformer 基线（FullFormer）超过 7%。
- 在更具挑战性的 AV-Deepfake1M 上，DeformTrace 在所有指标上均显著优于现有最先进方法（如 DiMoDif, UMMAFormer）。例如，在 mAP@0.95 上比次优模型高出 4.15%。
- 在视频级检测（AUC）上也取得了 99.2% 的极高准确率。
效率与成本：
- 参数量更少： 相比 UMMAFormer 和 BA-TFD+，可训练参数分别减少了 2892 万和 1.32 亿。
- 计算量更低： FLOPs 比 UMMAFormer 低 6.4 倍。
- 推理更快： 推理速度比 UMMAFormer 快 7.3 倍，比 BA-TFD 快 5.8 倍。
鲁棒性：
- 在多种视频/音频压缩、噪声、模糊等退化场景下，DeformTrace 表现出比基线模型更强的鲁棒性。
消融实验：
- 验证了 DS-SSM、DC-SSM 和中继令牌机制各自的有效性。特别是中继令牌数量（ $N_r$ ）在 8 时效果最佳，能有效平衡长程依赖与计算复杂度。

5. 意义与总结

DeformTrace 证明了状态空间模型（SSMs）在复杂的时序伪造定位任务中具有巨大潜力。通过引入可变形机制和中继令牌，该模型成功克服了 SSM 在边界模糊、稀疏目标和长程依赖方面的固有缺陷。

其核心价值在于：

高精度： 能够精确定位细粒度的伪造片段，即使边界模糊或伪造内容极少。
高效率： 在保持 SOTA 性能的同时，大幅降低了计算成本和推理时间，使其更易于在实际部署中应用。
通用性： 提出的 DC-SSM 模块不仅适用于伪造定位，还可推广至其他跨序列交互任务（如音视频对应学习）。

这项工作为多媒体取证领域提供了一种高效、精准且鲁棒的新范式。