EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

本文提出了名为 EA-Swin 的嵌入无关 Swin Transformer 模型,通过直接建模预训练视频嵌入的时空依赖关系,并结合包含 13 万条视频的大规模基准数据集 EA-Video,在多种生成器及未见分布的跨域检测任务中实现了显著优于现有最先进方法的准确率与泛化能力。

Hung Mai, Loi Dinh, Duc Hai Nguyen, Dat Do, Luong Doan, Khanh Nguyen Quoc, Huan Vu, Naeem Ul Islam, Tuan Do

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EA-Swin 的新系统,它的任务是鉴别视频是“真人拍的”还是"AI 生成的”

想象一下,现在的 AI 视频生成技术(比如 Sora、Veo)就像是一个超级魔术师,它能变出以假乱真的视频,连肉眼都很难分辨。以前的“鉴伪专家”(旧检测方法)就像是用放大镜去找视频里的“破绽”(比如模糊的像素、奇怪的光影),但现在的魔术师把破绽藏得太好了,放大镜不管用了。

这篇论文提出的新方案,就像是从“找破绽”升级到了“测心跳”。

1. 核心思想:不看“皮囊”,看“灵魂”

  • 旧方法(像素级): 就像警察抓小偷,盯着小偷脸上的伤疤(像素瑕疵)。但现在的 AI 生成的视频太完美了,脸上没伤疤,警察就抓不到了。
  • 新方法(EA-Swin): 作者认为,AI 生成的视频虽然“皮囊”完美,但它的“灵魂”(内在的运动规律和时间逻辑)和真人视频不一样。
    • 真人视频:就像一个人的自然呼吸和心跳,虽然看似随意,但有着复杂的、不可预测的内在节奏。
    • AI 视频:就像是一个模仿者,虽然动作做得像,但它的“呼吸”和“心跳”太规律、太平滑,缺乏那种真实的“混乱感”和“生命力”。

EA-Swin 就是专门用来检测这种“灵魂节奏”的。它不直接看视频画面,而是先让一个强大的“翻译官”(预训练的视频编码器,比如 V-JEPA2)把视频翻译成一种“特征语言”(Embedding),然后在这个语言层面去分析视频的运动轨迹。

2. 它的独门绝技:像“切蛋糕”一样看视频

为了高效地分析这种复杂的“灵魂节奏”,EA-Swin 设计了一种聪明的结构,叫做**“因子化窗口注意力”**。

  • 比喻: 想象你要检查一部长电影。
    • 笨办法: 把整部电影的所有画面堆在一起,试图一次性看完所有细节。这太累了,而且容易晕。
    • EA-Swin 的办法: 它把电影切成很多小块(窗口)。
      1. 先看时间(纵向): 它先盯着同一个位置,看它在不同时间帧是怎么动的(比如一个人的手怎么挥动)。
      2. 再看空间(横向): 它再看同一帧里,不同位置之间是怎么配合的(比如手和身体的协调)。
    • 它像切蛋糕一样,把时间和空间分开处理,既看得清楚,又算得快。这种设计让它能兼容各种各样的“翻译官”(编码器),非常灵活。

3. 它的“训练场”:EA-Video 数据集

要训练一个鉴伪专家,光有理论不行,得有大量的“真案”和“假案”来练手。

  • 作者收集了13 万个视频,建了一个叫 EA-Video 的大数据库。
  • 真视频:来自各种真实的拍摄素材。
  • 假视频:来自 Sora、Veo、Kling、Hunyuan 等几十种最新的 AI 生成器。
  • 最厉害的一点:这个数据库里包含了很多**“没见过世面”的 AI 生成器**(Unseen Generators)。就像考试时,老师不仅考你学过的题,还突然拿出一道你从未见过的难题。EA-Swin 在这种“盲测”中依然表现优异,说明它真的学到了鉴伪的“内功”,而不是死记硬背。

4. 战绩如何?

  • 准确率极高: 在测试中,EA-Swin 的准确率达到了 97% - 99%
  • 碾压对手: 以前的顶级方法(SoTA)准确率通常在 80%-90% 之间,遇到新出的 AI 生成器就经常“翻车”(准确率掉到 50% 左右,跟猜硬币差不多)。而 EA-Swin 面对这些新 AI,依然能保持高准确率。
  • 抗干扰能力强: 即使视频被压缩、加了噪点或者模糊了(就像视频在微信上传输后变质的样子),EA-Swin 依然能认出真假。

总结

这篇论文告诉我们:面对越来越逼真的 AI 视频,我们不能只盯着表面的“画质”看。我们需要一种更高级的方法,去分析视频内在的运动逻辑和时空规律

EA-Swin 就像是一个拥有“透视眼”的侦探,它不看视频画得有多像,而是直接读取视频背后的“运动密码”,从而轻松识破那些试图伪装成真人的 AI 假视频。这为未来保护我们不被虚假视频欺骗,提供了一把强有力的“金钥匙”。