MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

この論文は、「オムニ型 AI（映像・音声・テキストをすべて理解する AI）」が、なぜよくある「勘違い（ハルシネーション）」をしてしまうのか、そしてそれをどうやって直したかという話です。

タイトルにある**「MoD-DPO」**という新しい技術が、AI の「耳と目」を正しく使い分けさせる魔法のレシピのようなものです。

以下に、専門用語を避け、身近な例え話を使って解説します。

🎬 物語：「耳が良すぎるがゆえの勘違い」をする探偵

想像してください。優秀な探偵（AI）が、事件現場の映像と音声を同時に聞いています。

映像： 静かな川の流れ。
音声： 誰かが「犬が吠えている」と言っている声。

ここで、従来の AI はこう答えてしまいます。

「はい、映像の中に犬が吠えているのが見えます！」

でも、実際は映像には犬なんていません。AI は「犬が吠えている」という音声を聞いて、勝手に「映像にも犬がいるはずだ」と思い込み（ハルシネーション）をしてしまったのです。

この「音声と映像がズレているのに、無理やり結びつけてしまう癖」や、「映像がないのに、言葉の知識だけで『あるはずだ』と答えてしまう癖」を直したのが、この研究です。

🛠️ 解決策：「モダリティ・デカップリング（MoD-DPO）」の 3 つの魔法

この新しい技術（MoD-DPO）は、AI に 3 つの特別なトレーニングを施します。

1. 「邪魔なノイズ」に無反応になる練習（Invariance：不変性）

例え話：
探偵に「映像だけを見て答えなさい」と言います。その時、背景で全く関係ない音（例えば、犬の吠え声）を流します。

以前の AI： 「あ、犬が吠えてる！映像にも犬がいるに違いない！」と動揺して答えを間違える。
MoD-DPO の AI： 「その音は映像とは関係ないな。映像に犬が映ってなければ、犬はいない」と冷静に無視する。

意味： 質問に関係ない情報（ここでは音声）が壊れたり、変な音が入ったりしても、答えが揺らがないようにします。

2. 「重要な情報」に敏感になる練習（Sensitivity：感度）

例え話：
今度は「映像だけを見て答えなさい」と言います。その時、映像の犬の部分を消したり、ぼかしたり（壊したり）します。

以前の AI： 「犬の音があるから、犬がいる」と言いつつ、映像が変わっても気づかない。
MoD-DPO の AI： 「あれ？映像が変わった！犬の姿が消えた！だから答えは『いない』だ！」と即座に気づいて答えを変える。

意味： 質問に関係ある情報（ここでは映像）が壊れたら、すぐに「あれ？おかしいぞ」と反応して答えを修正できるようにします。

3. 「言葉の先入観」を消す練習（Language-Prior Debiasing）

例え話：
AI は元々、本やネットの文章を大量に読んでいるので、「犬＝吠える」という言葉の知識が強すぎて、映像や音がなくても「犬がいる」と言いたがります。

MoD-DPO の AI： 「待てよ、映像も音もないのに、ただ『犬』という言葉があるからって答えるのはやめよう」と、自分の言葉の癖を自分で抑えるように訓練します。

🍳 厨房での実験：どうやって教えたのか？

この AI を訓練するために、研究者たちは**「1 万 8000 問以上」**の特別な練習問題を作りました。

素材集め： 動画と音声をバラバラにします（映像は川、音は犬の吠え声など）。
質問作成： 「映像に犬はいるか？」という質問を作ります。
正解と不正解のペア：
- 正解（チョイス）： 「映像に犬はいない」と、映像の情報だけで正しく答える。
- 不正解（リジェクト）： 「犬の音が聞こえるから、映像にもいるはずだ」と、関係ない音声の情報を使って間違った答えをする。

AI に「この 2 つの答え、どっちが正しい？」と繰り返し教えて、**「関係ない情報に惑わされない正解」**を好きになるように学習させました。

🏆 結果：どう変わった？

この新しいトレーニングを受けた AI は、以下の点で劇的に良くなりました。

嘘をつかなくなった： 映像にないものを「ある」と言ったり、音にないものを「聞こえる」と言ったりする間違いが大幅に減りました。
バランスが良くなった： 映像と音声を、それぞれの役割に忠実に使い分けられるようになりました。
他の方法より優秀： 従来の「AI に正解を教えるだけ」の方法や、他の最新の技術よりも、はるかに高い精度を達成しました。

🌟 まとめ

この論文は、**「AI に『耳と目』を正しく使い分けさせる方法」**を見つけました。

AI が「言葉の先入観」や「無関係な音」に流されて嘘をついてしまうのを防ぎ、「実際に見ていること、聞いていること」に忠実に答えるようにしたのです。これにより、より信頼できる、賢いマルチメディア AI が作れるようになるはずです。

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

🎬 物語：「耳が良すぎるがゆえの勘違い」をする探偵

🛠️ 解決策：「モダリティ・デカップリング（MoD-DPO）」の 3 つの魔法

1. 「邪魔なノイズ」に無反応になる練習（Invariance：不変性）

2. 「重要な情報」に敏感になる練習（Sensitivity：感度）

3. 「言葉の先入観」を消す練習（Language-Prior Debiasing）

🍳 厨房での実験：どうやって教えたのか？

🏆 結果：どう変わった？

🌟 まとめ

論文技術サマリー：MoD-DPO

1. 背景と課題 (Problem)

2. 提案手法 (Methodology)

2.1. モダリティ脱結合（Modality Decoupling）

2.2. 言語プリアのバイアス除去（Language-Prior Debiasing, LPD）

2.3. 学習データ生成パイプライン

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

🎬 物語：「耳が良すぎるがゆえの勘違い」をする探偵

🛠️ 解決策：「モダリティ・デカップリング（MoD-DPO）」の 3 つの魔法

1. 「邪魔なノイズ」に無反応になる練習（Invariance：不変性）

2. 「重要な情報」に敏感になる練習（Sensitivity：感度）

3. 「言葉の先入観」を消す練習（Language-Prior Debiasing）

🍳 厨房での実験：どうやって教えたのか？

🏆 結果：どう変わった？

🌟 まとめ

論文技術サマリー：MoD-DPO

1. 背景と課題 (Problem)

2. 提案手法 (Methodology)

2.1. モダリティ脱結合（Modality Decoupling）

2.2. 言語プリアのバイアス除去（Language-Prior Debiasing, LPD）

2.3. 学習データ生成パイプライン

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

関連論文

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics