Benchmarking Deflection and Hallucination in Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語の舞台：「AI 探偵」の新しい試験

最近の AI（特に画像を見て文章で答える「大規模視覚言語モデル」）は、すごい知識を持っています。でも、ある問題に直面すると、**「知らないのに、無理やり答えを作ってしまう（嘘をつく）」という癖があります。これを専門用語で「ハルシネーション（幻覚）」**と呼びます。

逆に、**「本当にわからないなら、答えられないと正直に言う」ことを「ディフレクション（拒絶・回避）」**と呼びます。

この論文の著者たちは、「今の AI は、『知らない』と正直に言えるようになっているか？」を測るために、新しい試験「VLM-DeflectionBench」を作りました。

🍳 料理の例え：「レシピがない時のシェフ」

この試験の仕組みを、**「レシピがない時のシェフ」**に例えてみましょう。

従来のテスト（古い試験）：
- 「この料理の材料は何？」と聞かれて、シェフが「たぶん卵と牛乳かな？」と適当に答えても、正解に近いから「正解！」とされてしまいました。
- また、AI がすでに頭の中に持っている知識（パラメトリック知識）だけで答えられる問題ばかりだったので、AI が「検索」する必要性がテストされていませんでした。
新しいテスト（VLM-DeflectionBench）：
- 状況 A（パラメトリック）： 何もヒント（レシピや材料）を与えずに「この料理の材料は？」と聞きます。AI は「わからない」と言うべきです。
- 状況 B（オラクル）： 正しいレシピ（正解のヒント）だけを与えます。AI は正しく答えるべきです。
- 状況 C（リアリスティック）： 正しいレシピと、**「似ているけど間違っている嘘のレシピ（ダミー）」**を混ぜて与えます。AI は「どれが本当のレシピか」見極め、嘘のレシピに騙されてはいけません。
- 状況 D（アドバーサリアル）： 嘘のレシピだけを与えます。AI は「これじゃ答えられない！」と**「答えられない（拒絶）」**と言わなければなりません。

🚨 発見された「AI の弱点」

この新しい試験で 20 種類の最新の AI をテストしたところ、**「AI はまだ『知らない』と言えない」**という悲しい（でも重要な）結果が出ました。

嘘のレシピに騙されやすい：
間違ったヒント（ダミー）が混ざっていると、AI は「わからない」と言う代わりに、「たぶんこうかな？」と自信満々に嘘の答えを捏造してしまいます。
- 例え話： 料理の材料を聞かれて、正しいレシピがないのに、シェフが「たぶん、魔法の粉を使ってるはず！」と嘘をついてしまうようなものです。
「言葉」に弱すぎる：
画像（視覚情報）が正解のヒントであっても、そこに**「間違った文章のヒント」**が混ざると、AI は画像を無視して、間違った文章の方を信じてしまいます。
- 例え話： 目の前に「赤いリンゴ」の画像があるのに、横に「これは青いバナナです」という嘘のメモが置いてあると、AI は「これは青いバナナだ！」と答えてしまいます。
強制的に「答えられない」ようにすると、正解も言えなくなる：
「わからない時は絶対に答えちゃダメ！」と厳しく指示すると、AI は嘘は言わなくなりますが、**「本当はわかるのに、無理やり『答えられない』と言う」**という極端な態度をとるようになりました。
- 例え話： 「嘘をつくな！」と厳しく怒られたシェフは、正しい料理も「作れません！」と断ってしまい、結局何も提供できなくなります。

💡 何が重要なのか？（結論）

この研究が伝えたいのは、**「AI に『何を知っているか』だけでなく、『何を知っていないか』をどう振る舞うかも評価すべきだ」**ということです。

今の課題： AI は「知らないこと」を「知っているふり」をして答えてしまう癖が強い。
理想の AI： 証拠が不十分な時は、無理に答えずに「申し訳ありません、これでは答えられません」と正直に言うこと（ディフレクション）。
今後の方向性： 単に「正解率」を上げるだけでなく、**「いつ答え、いつ止めるか」**というバランス感覚（信頼性）を高めることが必要です。

🌟 まとめ

この論文は、**「AI に『わからない』と言わせるための新しい試験」を作りました。
その結果、今の AI は「知らないのに、無理やり答えを作ってしまう」**という癖がまだ強く残っていることがわかりました。

これからの AI は、**「正解を出すこと」だけでなく、「正解できない時に素直に止まること」**も上手にできるようになる必要があります。そうしないと、医療や法律など、信頼が何より重要な場所で AI を使うのは危険だからです。

この新しい試験は、AI が成長するにつれてアップデートされ、より賢く、より正直な AI を育てるための「土台」として使われていく予定です。

Benchmarking Deflection and Hallucination in Large Vision-Language Models

🕵️‍♂️ 物語の舞台：「AI 探偵」の新しい試験

🍳 料理の例え：「レシピがない時のシェフ」

🚨 発見された「AI の弱点」

💡 何が重要なのか？（結論）

🌟 まとめ

1. 問題定義

2. 手法と提案システム：VLM-DeflectionBench

A. 動的データキュレーションパイプライン

B. 4 つの評価シナリオ

C. 評価プロトコル

3. 主要な結果

4. 主要な貢献

5. 意義と結論

Benchmarking Deflection and Hallucination in Large Vision-Language Models

🕵️‍♂️ 物語の舞台：「AI 探偵」の新しい試験

🍳 料理の例え：「レシピがない時のシェフ」

🚨 発見された「AI の弱点」

💡 何が重要なのか？（結論）

🌟 まとめ

1. 問題定義

2. 手法と提案システム：VLM-DeflectionBench

A. 動的データキュレーションパイプライン

B. 4 つの評価シナリオ

C. 評価プロトコル

3. 主要な結果

4. 主要な貢献

5. 意義と結論

関連論文

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG