Leveraging large multimodal models for audio-video deepfake detection: a pilot study

该论文提出了一种基于 Qwen 2.5 Omni 的有监督微调大模型 AV-LMMDetect,通过将音视频深度伪造检测转化为提示式分类任务,并采用 LoRA 对齐与全量微调的两阶段训练策略,在多个数据集上实现了优于或持平现有方法的检测性能。

Songjun Cao, Yuqi Li, Yunpeng Luo, Jianjun Yin, Long Ma

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AV-LMMDetect 的新方法,用来识别“真假视频”。简单来说,就是教一个超级聪明的 AI 老师,如何一眼看穿现在的“换脸”或“假声”视频。

我们可以用几个生动的比喻来理解这项研究:

1. 背景:现在的“假视频”太逼真了

想象一下,现在的造假技术(Deepfake)就像是一个高明的魔术师。他不仅能完美地模仿你的脸(视频),还能完美地模仿你的声音(音频)。

  • 以前的侦探(旧模型): 就像只戴着眼镜的侦探,或者只戴着耳机的侦探。他们要么只看画面(比如嘴唇动得对不对),要么只听声音。如果魔术师只露出破绽在“声音和画面对不上”的地方(比如嘴型慢了半拍),这些单眼或单耳的侦探就抓不住他。
  • 现在的挑战: 我们需要一个既戴眼镜又戴耳机,还能同时思考的超级侦探。

2. 主角登场:AV-LMMDetect(超级侦探)

作者团队没有从头造一个新的侦探,而是找来了一个已经非常博学的“超级大脑”——Qwen 2.5 Omni(一种大型多模态模型)。

  • 原来的状态: 这个超级大脑虽然知识渊博,但面对“这是真视频还是假视频?”这种专业问题时,它像个优柔寡断的学者。看着视频,它可能会说:“嗯……我觉得可能是真的,但也可能是假的,我不确定。”(就像论文图 1 里那个回答“无法确定”的模型)。
  • 我们的改造: 作者给这个超级大脑做了一次特训(微调),把它变成了一个铁面无私的鉴证专家。现在,当它看到视频时,它不再犹豫,而是直接给出一个明确的判决:“这是假的!”

3. 特训方法:两步走战略(像练武一样)

为了让这个超级大脑学会鉴证,作者设计了一个两阶段训练法

  • 第一阶段:轻量级“对齐”(LoRA 对齐)

    • 比喻: 就像给一个刚入职的实习生(大模型)发一本《鉴证手册》。我们不改变他原本的大脑结构(冻结了视觉和听觉编码器),只是教他:“以后看到视频,只许回答‘真’或‘假’,不许啰嗦。”
    • 目的: 让他快速适应工作规则,学会听懂指令。
  • 第二阶段:全功率“实战”(全量微调)

    • 比喻: 现在实习生已经懂规矩了,我们要让他亲自下场练武。我们打开他的大脑,让他同时用眼睛看、用耳朵听,去捕捉那些细微的、肉眼和耳朵单独看都发现不了的不协调感(比如声音和嘴唇的微小时间差)。
    • 目的: 让他真正理解“声音”和“画面”是如何配合的,从而发现造假者留下的蛛丝马迹。

4. 战绩如何?(考试结果)

作者把这个新侦探送到了两个最难的“考场”(数据集)去考试:

  • 考场一(FakeAVCeleb): 这里的题目比较常规。

    • 结果: 我们的新侦探得分 98%,和目前最厉害的老牌侦探(AVFF)不相上下,但比那些只戴眼镜或只戴耳机的旧侦探(得分 50%-80%)强太多了。
  • 考场二(MAVOS-DD): 这是地狱级难度。这里的视频用了不同的语言、不同的造假技术,甚至是我们从未见过的造假手段(就像魔术师换了新戏法)。

    • 旧侦探的表现: 很多旧侦探在这里直接“懵圈”了,得分只有 30%-50%,甚至不如瞎猜。
    • 我们的新侦探: 即使面对从未见过的戏法,它依然能保持 85% 以上的准确率,刷新了世界纪录

5. 核心启示

这篇论文告诉我们一个道理:
以前我们为了抓造假者,总是造各种各样的专用小工具(针对某种特定造假技术的模型)。但造假技术更新太快,小工具容易过时。
现在,我们学会了利用“超级大脑”的通用推理能力,通过简单的“提问”(问它:这是真的吗?)和“特训”,让它变成最强大的鉴证工具。它不仅能记住见过的造假,还能举一反三,识别出那些它从未见过的新型造假。

总结一句话:
作者给一个博学的 AI 大模型做了一次“鉴证特训”,让它从“犹豫不决的学者”变成了“火眼金睛的侦探”,在识别真假视频(尤其是那些声音和画面不协调的假视频)方面,取得了目前最好的成绩。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →