KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

KVSmooth は、アテンションエントロピーに基づく適応的平滑化を KV キャッシュに適用することで、追加の学習なしにマルチモーダル大規模言語モデルの視覚的ハルシネーションを効果的に軽減し、精度と再現率を同時に向上させる推論時のプラグアンドプレイ手法です。

Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎨 絵画を描く AI と「記憶の揺らぎ」

まず、画像を見て文章を書く AI(マルチモーダル大規模言語モデル)の仕組みを想像してください。
AI は、画像をパズルのピース(トークン)として見て、一つずつ文章を組み立てていきます。

しかし、長い文章を書く過程で、AI は**「最初の画像の記憶」が薄れてしまい、自分の「言葉の癖(言語的な先入観)」に頼りすぎてしまうことがあります。
例えば、「海辺の風景」を見て説明している途中で、AI が「あ、海といえば波だ!波は青い!」と勝手に想像して、実際には写っていない「青い波」を文章に追加してしまうのです。これが
「ハルシネーション(幻覚)」**と呼ばれる現象です。

🔍 発見:AI の「注意力」が暴走する瞬間

研究者たちは、なぜこのような嘘がついてしまうのかを調査しました。すると、面白いことがわかりました。

  1. 記憶の「沈殿物(シンク)」:
    AI が文章を作る過程で、特定の単語や記号が「みんなの注目を集めすぎる」瞬間があります。これを**「シンク(沈殿物)」**と呼びます。
    普通の人間で言えば、会話中に「えーと…えーと…」と間延びした言葉に全員が注目してしまうような状態です。AI はこの「注目されすぎた部分」に過剰に反応して、画像とは関係ないことを勝手に付け加えてしまいます。

  2. 混乱のサイン:
    この「注目されすぎ」の状態は、AI の頭の中が混乱しているサイン(エントロピーが高い状態)でもあります。ここを放っておくと、AI はどんどん嘘をつき始めます。

💡 解決策:KVSmooth(キー・バリュー・スムージング)

そこで提案されたのが**「KVSmooth」という方法です。これは、AI を再教育(リトレーニング)する必要がなく、「推論中(文章を書いている最中)」にだけ行う、簡単で軽い修正**です。

これを**「お茶を淹れる時の濾過(ろか)」「ブレるカメラの stabilization(手ブレ補正)」**に例えてみましょう。

1. 「EMA(指数移動平均)」による手ブレ補正

AI が新しい単語を生成するたびに、その「記憶(キーと値)」を急激に変えるのではなく、「前の記憶」と「今の記憶」を滑らかに混ぜ合わせるようにします。

  • 例え話: 急な方向転換をすると車が転倒するのと同じで、AI の思考も急激に変えると嘘をつきやすくなります。KVSmooth は、**「少しだけ前の記憶を残しながら、新しい情報を取り入れる」**ことで、AI の思考を安定させます。

2. 「混乱度」に応じた自動調整

ここが最も素晴らしい点です。KVSmooth は、**「今、AI が混乱している(嘘をつきそう)か?」**をリアルタイムでチェックします。

  • 混乱していない時: 画像の事実を忠実に伝えるので、あまり干渉しません。
  • 混乱している時(シンク状態): 「あ、今嘘をつきそうだな!」と察知すると、「記憶の混ぜ合わせ(スムージング)」を強く行います。
  • 例え話: 料理人が味見をして、「塩が足りていないな」と思えば塩を足し、「味が濃くなりすぎているな」と思えば水を足すように、AI の状態に合わせて「記憶の安定剤」の量を自動で調整します。

🚀 この方法のすごいところ

  1. 訓練不要(Training-free):
    既存の AI モデルを再学習させる必要がありません。プラグインのように**「差し込むだけで」**使えます。
  2. 嘘を減らしつつ、事実も守る:
    従来の方法は、「嘘を減らすために、正しい情報まで消してしまう」ことがありました(精度は上がるが、 recall が下がる)。しかし、KVSmooth は**「嘘(ハルシネーション)は減らしつつ、正しい情報(事実)も守る」**という、両立が難しいバランスを実現しました。
    • 結果: 嘘の割合が 41.8% から 18.2% へ激減し、全体の正解率も向上しました。
  3. 高速で軽量:
    計算コストがほとんど増えないため、AI の動作速度を遅くしません。

🌟 まとめ

KVSmooth は、**「AI が長い文章を書く時に、記憶がぼやけて嘘をつきそうになるのを、リアルタイムで『記憶の安定剤』を使って防ぎ、かつ混乱している時だけ強く補正する」**という、賢くて簡単なテクニックです。

これにより、AI は画像を見て「ありのまま」を説明するようになり、私たちがより信頼して AI を使えるようになることが期待されています。