DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

本文提出了 DeformTrace,一种结合可变形自/交叉状态空间模型与中继令牌机制的新型混合架构,旨在通过动态感受野和子空间划分解决视频音频时序伪造定位中边界模糊、长程依赖及稀疏伪造检测等难题,从而实现更精准、高效且鲁棒的伪造片段识别。

Xiaodong Zhu, Suting Wang, Yuanming Zheng, Junqi Yang, Yangxu Liao, Yuhong Yang, Weiping Tu, Zhongyuan Wang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DeformTrace 的新 AI 技术,它的任务是在视频和音频中精准地找出“造假”的部分

想象一下,现在的 AI 造假技术(Deepfake)非常厉害,能把一段视频里的人脸换掉,或者把声音合成得一模一样。以前的检测方法就像是一个拿着放大镜的侦探,只能告诉你“这段视频是假的”,但很难告诉你“具体是哪一秒开始假的,哪一秒结束”。而 DeformTrace 的目标就是做一个超级侦探,不仅能告诉你“有假”,还能精准地画出“造假的时间线”。

为了让你更容易理解,我们可以把视频看作一条长长的河流,而造假的部分就像是河里混进去的几滴墨水

1. 以前的方法遇到了什么困难?

以前的侦探(旧模型)在找墨水时遇到了三个大麻烦:

  • 边界模糊:墨水晕开的地方和清水的交界处很难分清,侦探容易把“真水”误判为“假水”,或者漏掉一点墨水。
  • 墨水太少:整条河里只有几滴墨水,大部分是清水。侦探如果一直盯着清水看,很容易忘记墨水的特征,导致对那几滴墨水“视而不见”。
  • 记性不好:河流太长了,侦探如果只盯着眼前的一小段看,就记不住上游或下游发生了什么,导致找不到那些相隔很远的造假点。

2. DeformTrace 的三大“独门绝技”

为了解决这些问题,作者给侦探装备了三个神奇的法宝:

法宝一:可变形自我扫描 (Deformable Self-SSM) —— “会伸缩的探照灯”

  • 传统做法:以前的侦探拿着一个固定大小的手电筒,只能照固定的范围。如果墨水晕开的边界超出了这个范围,他就照不到了。
  • DeformTrace 的做法:它给侦探装了一个智能探照灯。这个灯不是固定的,它可以根据情况自动伸缩和变形
    • 当它发现边界模糊时,灯就会自动变大,把周围模糊的区域都照清楚。
    • 它不再死板地按秒数扫描,而是像灵活的触手一样,哪里可疑就重点照哪里。
    • 效果:无论造假边界是清晰还是模糊,它都能精准地圈出来。

法宝二:中继令牌机制 (Relay Token Mechanism) —— “河流中的接力站”

  • 传统做法:河流太长了,侦探从上游走到下游,中间走了很久,记忆就模糊了(这就是论文说的“长距离衰减”)。
  • DeformTrace 的做法:它在河流中每隔一段距离就设立一个**“中继站”(中继令牌)**。
    • 侦探每走一段路,就把收集到的重要信息交给中继站。
    • 中继站就像一个超级广播塔,把上游的信息瞬间广播给下游,或者把下游的信息传回上游。
    • 效果:无论河流多长,信息都能无损传递。侦探永远记得上游发生了什么,不会因为距离远而“失忆”。

法宝三:可变形交叉扫描 (Deformable Cross-SSM) —— “带着通缉令的搜查队”

  • 传统做法:侦探在河里漫无目的地找,容易把清水(正常内容)当成墨水,因为清水太多了,干扰了判断。
  • DeformTrace 的做法:它派出了几支**“搜查小队”(查询令牌),每支小队手里都拿着一张“通缉令”**(假设的造假特征)。
    • 这些小队不关心整条河,它们只负责拿着通缉令,在河里专门寻找和通缉令匹配的目标。
    • 它们把注意力集中在“可疑点”上,自动忽略掉那些无关的清水。
    • 效果:即使造假的部分非常少(稀疏),搜查队也能像雷达一样精准锁定目标,不会被大量的正常内容干扰。

3. 这个技术有多牛?

  • 更准:在找造假的时间点时,它比以前的方法更精准,能画出更细的时间线。
  • 更快:以前的方法像是一个笨重的大象在跑步,又慢又耗电。DeformTrace 像是一只灵活的猎豹,用更少的计算资源(参数更少),跑得更快。
  • 更稳:即使视频被压缩、加了噪点或者画面模糊(就像河水变得浑浊),它依然能准确找到造假部分,不容易被干扰。

总结

简单来说,DeformTrace 就是一个装备了智能探照灯、中继广播站和精准搜查队的超级侦探。它不再死板地扫描视频,而是像人一样灵活地关注重点,无论造假藏得有多深、边界有多模糊、或者视频有多长,它都能精准地把“假”的部分揪出来。

这项技术对于打击网络谣言、保护新闻真实性以及维护数字世界的安全,具有非常重要的意义。