MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

本文提出了模态解耦直接偏好优化(MoD-DPO)框架,通过引入模态感知正则化和语言先验去偏惩罚,有效缓解了全模态大语言模型中的跨模态幻觉问题,显著提升了其在音视频理解任务中的感知准确性与抗幻觉能力。

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MoD-DPO 的新方法,旨在解决一种叫做“全能大模型”(Omni LLMs)的 AI 系统经常犯的“幻觉”毛病。

为了让你轻松理解,我们可以把这种 AI 想象成一个超级聪明的“多感官侦探”。它既能看视频,又能听声音,还能用文字交流。

1. 侦探的烦恼:为什么它会“瞎编”?

虽然这个侦探很聪明,但它有个大毛病:太依赖“老经验”和“瞎联想”

  • 场景一:瞎联想(跨模态幻觉)
    • 例子:侦探在看一段视频,画面里是一只猫在睡觉,但背景音里有一声模糊的狗叫。
    • 错误反应:侦探可能会说:“我看到一只狗在叫!”
    • 原因:它把“声音”和“画面”强行联系在了一起,或者因为背景里偶尔有狗叫,它就以为画面里肯定有狗。这就好比你在听故事时,因为听到“雨声”,就脑补出窗外有“彩虹”,尽管根本没下雨。
  • 场景二:太自信(语言偏见)
    • 例子:侦探看一段视频,画面里是一片沙漠,但有人问:“视频里有水吗?”
    • 错误反应:侦探可能会说:“有,我好像看到一条河。”
    • 原因:因为它读过太多书(训练数据),知道“沙漠”和“绿洲”经常一起出现,或者它太习惯用文字逻辑去猜,而不是真正去“看”视频。它就像那个还没看题就急着写答案的学生,完全忽略了题目里的真实图片。

2. 解决方案:MoD-DPO(给侦探戴上“隔音耳塞”和“放大镜”)

作者提出了一种叫 MoD-DPO 的训练方法,就像给侦探进行了一次特殊的“特训”。这个特训的核心思想是**“解耦”**,也就是把耳朵和眼睛的功能分开训练,让它们各司其职。

核心训练法一:模态解耦(Modality Decoupling)

想象你在训练侦探时,故意制造一些“干扰项”:

  • 训练“耳塞”(不变性 Invariance):

    • 做法:给侦探看一段关于“猫”的视频,但把背景音换成“汽车喇叭声”(这是不相关的噪音)。
    • 要求:侦探必须回答:“这是猫,跟喇叭声没关系。”
    • 目的:告诉侦探,如果问题问的是画面,那么声音变了,你的答案也不能变。这就像教侦探戴上“隔音耳塞”,当问题只关于视觉时,自动屏蔽无关的声音干扰。
  • 训练“放大镜”(敏感性 Sensitivity):

    • 做法:给侦探看一段关于“猫”的视频,但把画面里的猫 P 掉,换成“狗”。
    • 要求:侦探必须立刻发现:“不对!画面变了,答案得从‘猫’改成‘狗’。”
    • 目的:告诉侦探,如果问题问的是画面,那么画面一变,你的答案必须跟着变。这就像给侦探戴上“放大镜”,让他对关键信息的变化极其敏感。

通过这种“干扰训练”,侦探学会了:问什么,就只关注什么;无关的干扰,一律忽略。

核心训练法二:语言偏见去偏(Language Prior Debiasing)

  • 做法:有时候,侦探不看视频,只听文字描述,也能猜出个大概(比如问“沙漠里有水吗”,它可能根据常识瞎猜)。
  • 惩罚机制:MoD-DPO 会给侦探定一条规矩:“如果你只靠文字猜,而不看视频/听声音,就要受罚!”
  • 目的:强迫侦探必须真正去观察输入的视频和音频,而不是偷懒用文字经验去“蒙”答案。

3. 特训成果:侦探变强了

经过这种特训后,这个“多感官侦探”在测试中表现惊人:

  • 不再瞎编:当视频里没水,只有风声时,它不再说“有河”。
  • 不再串台:当视频里是猫,背景有狗叫时,它不再说“有狗”。
  • 更专注:它开始真正地去“看”和“听”,而不是靠“猜”。

总结

这篇论文就像是在教一个容易分心、爱瞎猜的超级侦探如何专注

  • 以前的方法:只是告诉侦探“别猜错”,但没教它怎么区分耳朵和眼睛的功能。
  • MoD-DPO 的方法:通过**“故意制造干扰”(比如把声音和画面错配),强迫侦探学会“该听的时候专心听,该看的时候专心看”,并且“别光靠嘴(文字经验)瞎蒙”**。

最终,这个 AI 模型变得更加靠谱、真实,不再容易产生那种“看着像、听着像,其实全是编的”幻觉。这对于未来让 AI 真正理解现实世界(比如自动驾驶、医疗诊断)至关重要。