One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

この論文は、視覚トークンの強化と剪定をそれぞれ利用して視覚表現を補強し、モデルのバイアスを修正する「視覚トークン操作」に基づく統合フレームワークを提案し、訓練なしで多モーダル大規模言語モデルのハルシネーションを効果的に低減し、推論オーバーヘッドを最小限に抑えつつ POPE 精度を平均 2% 向上させることを示しています。

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎭 タイトル:「一つのトークン、二つの運命」

~AI の「目」を操って、嘘つきを直す~

1. 問題:AI はなぜ嘘をつくのか?

AI は画像を見て「これは何?」と答えるとき、2 つの力が戦っています。

  • 👁️ 目の力(視覚): 画像から得た事実。
  • 🗣️ 口の力(言語): 過去の知識や「こうだろう」という予想(言語の慣性)。

これまでの研究では、この 2 つを別々に治そうとしていました。

  • 「目を強くする」方法: 画像への注目度を上げる。
  • 「口を黙らせる」方法: 予想を打ち消す。

しかし、これらをバラバラにやると**「目だけ強くしても、AI の癖(言語の慣性)が強すぎて負けてしまう」とか、「口を黙らせようとして画像をいじると、逆にノイズが入って混乱してしまう」というジレンマがありました。まるで、「片方の耳を塞いで大声で叫んでも、相手の癖が勝ってしまう」**ような状態です。

2. 解決策:AI の「目(ビジョン・トークン)」を二刀流にする

この論文のアイデアは、**「AI が画像を認識する際の『目』のデータ(ビジョン・トークン)そのもの」を、「強化」**と **「矯正」**の 2 つの役割で同時に使うというものです。

まるで、**「同じ食材(野菜)を、同時に『スープの具』としても『毒抜き』としても使う」**ような発想です。

① 強化の役割:「SVC(シナジー・ビジュアル・キャリブレーション)」
  • どんなこと?
    元の画像だけでなく、**「加工した画像(逆さまにしたり、少しぼかしたりしたもの)」**も AI に見せます。
  • なぜ効果がある?
    元の画像と加工した画像を組み合わせると、**「互いに補い合う」**情報が見つかります。
    • 例: 元の画像で「カメラ」のレンズが見えにくい場合、加工した画像では「ボディ」がはっきり見えるかもしれません。
    • これらを混ぜて AI に見せることで、**「画像の全体像をより鮮明に捉える」**ことができます。これにより、AI が「画像を見失う」のを防ぎます。
② 矯正の役割:「CRC(因果的表現キャリブレーション)」
  • どんなこと?
    画像の「目」のデータを**あえて一部削除(切り捨て)**して、AI に見せます。
  • なぜ効果がある?
    ここが最も面白い部分です。
    • 従来の方法:画像を「黒塗り」や「ノイズ」にして見せる(画像そのものを壊す)。→ これだと AI が「何が見えないのか」を混乱して、余計なノイズが入る。
    • この論文の方法:画像のデータ(トークン)を**「頭の中(隠れ層)」で一部消す**。
    • 例: 「カメラのレンズのデータ」だけ消して、AI に「レンズがない画像」を想像させます。
    • AI は「レンズがないのに『レンズがある』と言おうとする」癖(バイアス)を持っています。この**「データがない状態での嘘」を AI に見せて、「あ、ここは嘘をついているな」とAI の「嘘をつく方向」を特定**します。
    • その「嘘の方向」を逆転させて、元の答えから差し引くことで、**「純粋な事実」**に近づけます。

3. 結果:どうなった?

この 2 つの役割(強化と矯正)を、**「同じ『目』のデータ」**を使って、AI の処理の途中(隠れ層)で同時に行うことで、以下の成果が出ました。

  • 嘘が減った: 実際にはない物体を「ある」と言う間違いが大幅に減りました。
  • 賢さは保たれた: 嘘を直すために、AI の一般的な会話能力や推理能力は損なわれませんでした。
  • 速い: 特別な学習(トレーニング)は不要で、計算コストもほとんど増えません(1 秒あたりの処理速度はほぼ同じ)。

🌟 まとめ:どんなイメージ?

この技術を一言で言うと、**「AI の『目』を、同時に『拡大鏡』としても『補正レンズ』としても使う」**ようなものです。

  • 拡大鏡(SVC): 画像の細部をより鮮明に見せて、事実を強化する。
  • 補正レンズ(CRC): 「もし目が見えなかったらどうなるか?」をシミュレーションして、AI の思い込み(バイアス)を削ぎ落とす。

これらを**「一つの仕組み」**で統合したおかげで、AI は「見ているもの」に忠実になり、より信頼できる回答ができるようになったのです。


一言で言えば:
「AI が勝手に嘘をつくのは、『目』が弱って『口(癖)』が強すぎるから。だから、『目』のデータを工夫して、同時に『目』を鍛えつつ『癖』を直すという、一石二鳥の新しい方法を見つけたよ!」という論文です。