Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MoD-DPO 的新方法，旨在解决一种叫做“全能大模型”（Omni LLMs）的 AI 系统经常犯的“幻觉”毛病。

为了让你轻松理解，我们可以把这种 AI 想象成一个超级聪明的“多感官侦探”。它既能看视频，又能听声音，还能用文字交流。

1. 侦探的烦恼：为什么它会“瞎编”？

虽然这个侦探很聪明，但它有个大毛病：太依赖“老经验”和“瞎联想”。

场景一：瞎联想（跨模态幻觉）
- 例子：侦探在看一段视频，画面里是一只猫在睡觉，但背景音里有一声模糊的狗叫。
- 错误反应：侦探可能会说：“我看到一只狗在叫！”
- 原因：它把“声音”和“画面”强行联系在了一起，或者因为背景里偶尔有狗叫，它就以为画面里肯定有狗。这就好比你在听故事时，因为听到“雨声”，就脑补出窗外有“彩虹”，尽管根本没下雨。
场景二：太自信（语言偏见）
- 例子：侦探看一段视频，画面里是一片沙漠，但有人问：“视频里有水吗？”
- 错误反应：侦探可能会说：“有，我好像看到一条河。”
- 原因：因为它读过太多书（训练数据），知道“沙漠”和“绿洲”经常一起出现，或者它太习惯用文字逻辑去猜，而不是真正去“看”视频。它就像那个还没看题就急着写答案的学生，完全忽略了题目里的真实图片。

2. 解决方案：MoD-DPO（给侦探戴上“隔音耳塞”和“放大镜”）

作者提出了一种叫 MoD-DPO 的训练方法，就像给侦探进行了一次特殊的“特训”。这个特训的核心思想是**“解耦”**，也就是把耳朵和眼睛的功能分开训练，让它们各司其职。

核心训练法一：模态解耦（Modality Decoupling）

想象你在训练侦探时，故意制造一些“干扰项”：

训练“耳塞”（不变性 Invariance）：
- 做法：给侦探看一段关于“猫”的视频，但把背景音换成“汽车喇叭声”（这是不相关的噪音）。
- 要求：侦探必须回答：“这是猫，跟喇叭声没关系。”
- 目的：告诉侦探，如果问题问的是画面，那么声音变了，你的答案也不能变。这就像教侦探戴上“隔音耳塞”，当问题只关于视觉时，自动屏蔽无关的声音干扰。
训练“放大镜”（敏感性 Sensitivity）：
- 做法：给侦探看一段关于“猫”的视频，但把画面里的猫 P 掉，换成“狗”。
- 要求：侦探必须立刻发现：“不对！画面变了，答案得从‘猫’改成‘狗’。”
- 目的：告诉侦探，如果问题问的是画面，那么画面一变，你的答案必须跟着变。这就像给侦探戴上“放大镜”，让他对关键信息的变化极其敏感。

通过这种“干扰训练”，侦探学会了：问什么，就只关注什么；无关的干扰，一律忽略。

核心训练法二：语言偏见去偏（Language Prior Debiasing）

做法：有时候，侦探不看视频，只听文字描述，也能猜出个大概（比如问“沙漠里有水吗”，它可能根据常识瞎猜）。
惩罚机制：MoD-DPO 会给侦探定一条规矩：“如果你只靠文字猜，而不看视频/听声音，就要受罚！”
目的：强迫侦探必须真正去观察输入的视频和音频，而不是偷懒用文字经验去“蒙”答案。

3. 特训成果：侦探变强了

经过这种特训后，这个“多感官侦探”在测试中表现惊人：

不再瞎编：当视频里没水，只有风声时，它不再说“有河”。
不再串台：当视频里是猫，背景有狗叫时，它不再说“有狗”。
更专注：它开始真正地去“看”和“听”，而不是靠“猜”。

总结

这篇论文就像是在教一个容易分心、爱瞎猜的超级侦探如何专注。

以前的方法：只是告诉侦探“别猜错”，但没教它怎么区分耳朵和眼睛的功能。
MoD-DPO 的方法：通过**“故意制造干扰”（比如把声音和画面错配），强迫侦探学会“该听的时候专心听，该看的时候专心看”，并且“别光靠嘴（文字经验）瞎蒙”**。

最终，这个 AI 模型变得更加靠谱、真实，不再容易产生那种“看着像、听着像，其实全是编的”幻觉。这对于未来让 AI 真正理解现实世界（比如自动驾驶、医疗诊断）至关重要。

Each language version is independently generated for its own context, not a direct translation.

MoD-DPO: 基于模态解耦偏好优化的全模态大模型跨模态幻觉抑制技术总结

1. 研究背景与问题定义

全模态大语言模型（Omni LLMs） 在音视频理解任务中取得了显著进展，但它们仍面临严重的跨模态幻觉（Cross-modal Hallucinations） 问题。

核心问题：模型容易产生与输入模态不符的幻觉，例如根据视觉线索“听到”不存在的声音，或根据音频“看到”不存在的画面。
成因分析：
1. 虚假的模态间相关性（Spurious Inter-modality Correlations）：模型在预训练和对齐过程中学习了错误的模态关联。
2. 对语言先验的过度依赖（Over-reliance on Language Priors）：由于 LLM 骨干网络在大规模文本数据上预训练，模型倾向于忽略音视频输入，仅根据文本提示生成回答。
现有方法局限：传统的偏好优化（如 DPO）未能显式地在优化过程中解耦模态路径，也未明确惩罚仅依赖文本的“捷径”回答；解码时的防御方法（如对比解码）虽然有效，但属于后处理，无法改变模型内部的决策边界。

2. 方法论：MoD-DPO (Modality-Decoupled DPO)

作者提出了一种名为 MoD-DPO 的偏好优化框架，旨在通过显式解耦模态信息来增强模型的模态 grounding（接地）能力。该方法包含两个核心机制：

2.1 模态解耦 (Modality Decoupling)

MoD-DPO 在标准 DPO 目标函数中引入了两个互补的正则化项，通过构造模态损坏（Modality Corruption） 数据来训练模型：

无关模态不变性（Invariance to Irrelevant Modalities）：
- 目标：当与提示词无关的模态（如视觉提示下的音频）被损坏（corrupted）时，模型的输出分布应保持稳定。
- 作用：防止模型被无关模态的噪声干扰，减少虚假的跨模态依赖。
相关模态敏感性（Sensitivity to Relevant Modalities）：
- 目标：当与提示词相关的模态（如视觉提示下的视频）被损坏时，模型的输出分布应发生显著偏移。
- 作用：强制模型对关键输入信息保持敏感，确保回答基于正确的模态证据。

数学形式：
在标准 DPO 损失基础上，增加了基于 KL 散度的正则化项。对于视觉相关提示 $x_v$ ，优化目标包含：

$-\beta_{inv} D_{KL}(\pi_\theta(\cdot|a, v, x_v) \parallel \pi_\theta(\cdot|a', v, x_v))$ ：惩罚无关音频 $a'$ 损坏导致的分布变化（要求不变）。
$+\beta_{sens} D_{KL}(\pi_\theta(\cdot|a, v, x_v) \parallel \pi_\theta(\cdot|a, v', x_v))$ ：奖励相关视频 $v'$ 损坏导致的分布变化（要求敏感）。
作者推导出了该目标的闭式解（Closed-form solution），并构建了自动生成的偏好数据集进行训练。

2.2 语言先验去偏 (Language-Prior Debiasing, LPD)

为了进一步抑制模型仅依赖文本生成回答的倾向，MoD-DPO 引入了语言先验去偏惩罚：

机制：在奖励函数中增加一项，惩罚仅使用文本输入（忽略音视频）时模型生成的“被选中”回答的概率。
实现：利用冻结的参考语言模型 $\pi_{ref}$ 作为语言先验的代理，计算仅基于文本输入时的对数概率，并将其作为负奖励项加入优化目标。

2.3 数据构建策略

自动构建偏好数据集：构建了包含 1.8 万多个样本、覆盖 1 万多个独特视频的数据集。
硬负样本（Hard Negatives）：在生成被拒绝（Rejected）的回答时，不是生成完全无关的内容，而是利用无关模态的信息生成具有误导性的回答（例如：针对视觉问题，利用音频信息生成错误的视觉描述），以此训练模型区分模态。
不匹配上下文（Mismatched Contexts）：在训练数据中混合使用音视频来源相同的匹配样本和来源不同的不匹配样本，以增强模型对虚假相关性的抵抗力。

3. 主要贡献

提出 MoD-DPO 框架：一种简单有效的偏好优化技术，通过模态解耦（不变性 + 敏感性）和语言去偏，显著缓解全模态 LLM 的跨模态幻觉。
构建大规模自动偏好数据集：利用 GPT-4o 和专用模型自动生成了包含 1.8 万 + 样本的偏好数据集，覆盖了音视频描述和对象/事件存在性检测任务。
理论推导与闭式解：推导了包含模态解耦项的 DPO 目标的闭式解，并证明了其能有效引导策略向模态忠实（modality-faithful）的证据使用方向收敛。
实证有效性：在多个基准测试中证明了该方法优于现有的 DPO 变体（如 OmniDPO）和其他后训练技术。

4. 实验结果

作者在 AVHBench（音视频幻觉基准）和 CMM（多模态诅咒基准）上进行了广泛评估，并对比了 Qwen 2.5 Omni 和 MiniCPM-O 2.6 等模型。

跨模态幻觉抑制：
- 在 AVHBench 上，MoD-DPO++ 在音频驱动的视频幻觉（Audio-driven Video Hallucination）任务中，准确率从基线的 84.15% 提升至 88.19%，F1 分数显著提升。
- 在 CMM 基准的“语言主导（Language Dominance）”任务中，MoD-DPO++ 相比 MoD-DPO 有显著额外提升，证明了语言去偏惩罚（LPD）的有效性。
鲁棒性分析：
- 分布偏移分析：实验显示，经过 MoD-DPO++ 训练的模型，在相关模态被损坏时，正确回答的对数似然分布发生了更大的偏移（敏感性增加）；而在无关模态被损坏时，分布变化较小（不变性增强）。
- 注意力重分配：MoD-DPO++ 显著增加了模型对音视频 Token 的注意力比例，表明模型被迫更多地关注非文本输入。
通用能力：在 DailyOmni、MVBench 和 MMAU 等通用音视频理解基准上，MoD-DPO++ 也表现出一致的性能提升，证明了该方法不仅抑制幻觉，还增强了整体感知能力。
效率：尽管增加了前向传播次数，但由于无需反向传播计算梯度，MoD-DPO++ 的训练计算开销与标准 DPO 相当，且收敛速度更快。

5. 研究意义与结论

模态忠实对齐的重要性：论文强调了在训练多模态模型时，必须显式地解耦模态路径并惩罚语言捷径，这对于构建可靠的全模态基础模型至关重要。
可扩展路径：MoD-DPO 提供了一种可扩展的、基于偏好优化的路径，无需重新预训练即可显著提升现有全模态 LLM 的抗幻觉能力和感知准确性。
未来方向：该方法为构建能够“先听/看，再思考”的可靠智能体（Agents）奠定了技术基础，解决了当前多模态模型中“听而不闻”或“视而不见”的关键缺陷。

总结：MoD-DPO 通过创新的模态解耦正则化和语言去偏机制，成功解决了全模态大模型中由虚假相关性和语言先验主导导致的跨模态幻觉问题，显著提升了模型在复杂音视频场景下的感知准确性和推理可靠性。

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization