GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

本文提出了 GEM-TFL 框架,通过 EM 引导的标签分解、无监督时序一致性细化及图结构提案优化,有效解决了弱监督时序伪造定位中训练与推理目标不匹配及监督信号不足的问题,显著缩小了其与全监督方法的性能差距。

Xiaodong Zhu, Yuanming Zheng, Suting Wang, Junqi Yang, Yuhong Yang, Weiping Tu, Zhongyuan Wang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GEM-TFL 的新方法,它的核心任务是:在一段视频里,精准地找出哪一部分是“假”的(被 AI 伪造的),哪一部分是“真”的。

想象一下,现在的 AI 换脸、变声技术非常厉害,一段视频里可能只有几秒钟是假的,剩下的都是真的。以前的方法就像是一个拿着放大镜的侦探,需要有人把每一帧画面都标记得清清楚楚(比如:“第 1 秒到第 5 秒是假的”),这非常耗时且昂贵。

而这篇论文提出的方法,是一个聪明的“盲探”。它只需要知道整段视频里“有没有假”(比如只给一个“是”或“否”的标签),就能自己学会把假的部分找出来,而且找得比那些需要大量标注的“全知侦探”还要准。

为了让你更容易理解,我们可以用三个生动的比喻来解释它是如何做到的:

1. 把“模糊的线索”变成“清晰的画像” (EM 引导的标签分解)

  • 以前的困境:以前的弱监督方法就像老师只告诉学生:“这张试卷里有错题”,但没说哪道题错了,也没说错在哪里。学生只能瞎猜,效率很低。
  • GEM-TFL 的妙招:它引入了一个**“心理侧写师” (EM 算法)**。
    • 虽然老师只给了“有错”这个模糊线索,但侧写师会帮学生把“错”拆解成几种不同的**“错误类型”**(比如:是声音假?是脸假?还是声音脸都不对?)。
    • 通过这种“拆解”,原本模糊的“有错”标签,变成了一组丰富的**“特征画像”**。学生不再只是死记硬背“这是错的”,而是学会了识别“这是声音不对的错”、“那是表情不对的错”。
    • 效果:就像给侦探提供了更多维度的线索,让他能更敏锐地捕捉到伪造的痕迹。

2. 让“断断续续的拼图”连成“流畅的河流” (时间一致性优化)

  • 以前的困境:因为训练和测试的目标不一致,以前的模型找出的假视频片段经常是碎碎的、断断续续的。就像你试图拼一幅画,结果拼出来的是一堆散落的碎片,中间还夹杂着很多空白,看起来很不自然。
  • GEM-TFL 的妙招:它设计了一个**“平滑剂” (时间一致性优化)**。
    • 这个模块不需要重新训练,它就像是一个**“修路工”。当模型预测出“这里可能是假的,那里也可能是假的”时,修路工发现中间断开了,就会自动把中间的路填平,把断开的碎片连成一条流畅的河流**。
    • 效果:它确保了伪造的片段在时间上是连贯的,不会出现“假 - 真 - 假 - 真”这种不合理的跳跃,让定位结果更加平滑、可信。

3. 让“孤立的嫌疑人”组成“互助小组” (基于图的提案优化)

  • 以前的困境:模型可能会生成很多个“嫌疑片段”(比如片段 A、片段 B、片段 C),但它们之间互不交流。有时候,片段 A 和片段 B 其实是一伙的(属于同一次伪造),但因为缺乏沟通,模型把它们当成了两个独立的事件,或者因为某个片段证据不足就把它扔掉了。
  • GEM-TFL 的妙招:它建立了一个**“嫌疑人关系网” (图神经网络)**。
    • 它把所有怀疑是伪造的片段都拉到一个群里,让它们互相“通气”。如果片段 A 和片段 B 在时间上挨得很近,而且长得也很像(语义相似),它们就会互相**“打气”**(扩散置信度)。
    • 如果一个片段看起来有点弱,但它的邻居都很强,这个弱片段也会因为“抱团”而变得更有说服力。
    • 效果:通过这种“互助”,模型能把那些原本被切碎的伪造片段合并成一个完整、连续的伪造区域,大大减少了漏网之鱼。

总结:为什么它很厉害?

这就好比以前的侦探(全监督方法)需要有人把案发现场的每一块砖都标出来,虽然准,但成本太高,没法大规模推广。

而 GEM-TFL 就像是一个拥有“超级直觉”的侦探

  1. 它不需要看每一块砖,只通过**“拆解线索”**(把模糊的假标签变成多种特征)来理解案情。
  2. 它懂得**“修补漏洞”**,把断断续续的线索连成完整的证据链。
  3. 它懂得**“团队协作”**,让各个线索互相印证,确保证据链无懈可击。

最终成果
在两个大型测试数据集上,GEM-TFL 的表现大幅超越了其他只需要“模糊线索”的弱监督方法,甚至缩小了与那些需要“全知全能标注”的顶级方法的差距。这意味着,未来我们可以在不花费巨额人力去标注数据的情况下,也能高效、精准地识别出视频中的 AI 伪造内容,让网络世界更安全。