Each language version is independently generated for its own context, not a direct translation.

「見えているか、見えていないか」を問う新しいテスト：VB ベンチマークの解説

この論文は、AI（特に画像を見て言葉を話す「視覚言語モデル」）が、**「写真の中で本当に何が見えているのか」**を正しく判断できるかを試す、新しいテスト「VB（Visibility Benchmark）」を紹介しています。

まるで、AI に「この写真を見て、何がはっきり見えて、何が隠れているか教えて。もし自信がなければ『わからない』と言いなさい」という、非常にシビアなクイズを解かせているようなものです。

以下に、この研究の核心を、日常の例えを使ってわかりやすく解説します。

1. なぜこのテストが必要なのか？（AI の「勘違い」を防ぐために）

想像してください。自動運転の AI が、歩道に隠れて半分しか見えていない子供を「見えていないから大丈夫」と判断してしまったらどうなるでしょう？あるいは、視覚障害者向けの AI が、暗くて文字が読めない看板を無理やり「ここには『止まれ』と書いてある」と言い張ったら？

これまでの AI は、「見えないもの」を無理やり推測して答えを出してしまう傾向がありました。しかし、安全が求められる場面では、**「見えないなら『わからない』と正直に言うこと」**が、間違った答えを出すことよりもはるかに重要です。

この VB テストは、AI に**「見えていること」と「存在すること」を区別し、見えないときは勇気を持って「答えられない（ABSTAIN）」と宣言する能力**を測るものです。

2. テストの仕組み：「2 種類の小さな変化」ゲーム

このテストは、まるで**「どこが変化したか見抜くゲーム」**のような仕組みになっています。

家族（ファミリー）という単位: 100 組の「写真と質問のセット」を用意しました。
2 種類の「ひねり」:
1. 写真のひねり: 写真の中の物体を少し動かしたり、隠したりする（例：看板の文字を少し隠す）。
2. 文章のひねり: 質問を少し変える（例：「見えている？」を「見えていない？」に変える）。

AI は、これらの組み合わせに対して「見える（YES）」「見えない（NO）」「わからない（ABSTAIN）」の 3 つから選びます。
重要なのは、AI が「写真が変われば答えも変わる」「質問が変われば答えも変わる」ことを正しく理解しているかどうかです。もし写真が変わったのに答えが変わらなかったり、逆に写真が変わらないのに質問だけで答えが変わったりしたら、それは AI が「勘」で答えている証拠です。

3. 評価のルール：「自信」も点数に含める

このテストでは、正解するだけでなく、**「どのくらい自信があるか」**も評価されます。

正解して高自信: 満点に近い評価。
正解して低自信: 評価は低め。
不正解: 自信が低かろうと高かろうと、ゼロ点。
「わからない」と言って正解: 見えないものを無理に推測せず、「わからない」と言った場合、少しの点数がもらえます。

これは、**「賭け」ではなく「確実な判断」**を重視するルールです。AI が「たぶんこれかな？」と低自信で間違えるより、「見えないからわからない」と言う方が、安全な社会には役立つからです。

4. 結果：誰が勝った？（AI の実力比較）

9 つの異なる AI モデルをテストした結果、面白いことがわかりました。

トップクラス: 「GPT-4o」や「Gemini 3.1 Pro」などの最新モデルが最も優秀でした。特に、**「誰が誰の視線を認識しているか」**という、複雑な人間関係の視点（2 次元的な視点）を推論する能力で、他の AI を大きく引き離しました。
オープンソースの台頭: 無料で使える「Gemma 3 12B」というモデルは、以前の高価な AI を凌駕する成績を収めました。これは、**「高いお金を出さなくても、ある程度の視覚判断能力は手に入る」**ことを示しています。
弱点: 多くの AI は、「写真の微妙な変化」よりも「質問の言葉のひねり（否定文など）」の方が得意でした。つまり、言葉の論理は追えても、写真のピクセルレベルの変化にはまだ鈍感なようです。

5. この研究が教えてくれること（まとめ）

この VB テストは、AI に「何でも知っているふり」をさせないための**「ブレーキ」**の役割を果たします。

安全な AI へ: 医療診断や自動運転など、失敗が許されない分野では、「わからない」と言える AI こそが信頼できます。
透明性: AI がなぜ「わからない」と判断したのか（「暗すぎるから」「隠れているから」「枠外にあるから」など）を理由として示すことで、人間が AI の判断を納得できます。
今後の課題: 今の AI は「言葉のひねり」には強いですが、「写真のひねり」にはまだ弱い傾向があります。これからの AI 開発では、写真の微妙な変化にも敏感になることが求められます。

一言で言うと：
この研究は、AI に**「見えないものを見えないと認め、無理に答えようとしない謙虚さ」**を教えるための新しい教科書を作ったようなものです。それは、AI が人間社会で安全に共存するための、とても重要な一歩です。

Each language version is independently generated for its own context, not a direct translation.

VB（Visibility Benchmark）技術サマリー

本論文は、画像とテキストの視覚言語モデル（VLM）が、写真から「何が視認可能で、何が視認不可能か」を判断し、証拠が不十分な場合には判断を保留（Abstain）できる能力を評価するための新しいベンチマーク**「VB (Visibility Benchmark for Visibility and Perspective Reasoning in Images)」**を提案したものです。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義と背景

自動運転（隠れた歩行者の検出）、視覚障害者支援、医療画像診断など、視覚的誤判断が重大な結果を招く分野において、モデルが「証拠不足」な状況で安易に推測を行うことは危険です。既存の VQA（Visual Question Answering）ベンチマークの多くは、答えられない質問を特定するものですが、**「なぜ答えられないのか（視認性のどの要因が欠如しているか）」**を特定し、制御された編集に対してモデルの判断が適切に変化するかを厳密に検証するものは不足していました。

VB は、以下の 3 つの能力を測定することを目的としています。

視認性の検証: 1 枚の写真と短い質問から、主張が視覚的証拠に基づいているかを確認する。
最小編集への頑健性: 画像またはテキストの最小限の変更により、正解ラベルが反転する際に、モデルが適切に反応するか。
判断の保留（Abstention）: 人間が慎重に見ても判断できない場合、モデルが自信を持って「保留」と回答できるか。

2. 手法とベンチマーク設計

2.1 タスク定義とラベル

各アイテムは 1 枚の画像と Yes/No 形式の視認性主張（例：「看板の文字は読み取れますか？」）から構成されます。モデルは以下の 3 つのラベルのいずれかと、その確信度（0-1）、および理由コードを出力します。

VISIBLY_TRUE: 写真の画素から明確に真と判断できる。
VISIBLY_FALSE: 写真の画素から明確に偽と判断できる。
ABSTAIN: 確信を持って Yes/No を判断できない（証拠が不足している）。

2.2 2×2 ファミリー設計

100 の「ファミリー」から構成され、各ファミリーは以下の要素を組み合わせます。

最小画像編集 (Image Edit): 視認性要因（例：遮蔽物の移動、距離の変化）を 1 つだけ変えた画像（ $I_0, I_1$ ）。
最小テキスト編集 (Text Edit): 主張を反転させる質問（ $q_0, q_1$ ）。

これにより、各ファミリーで 4 つのセル（ $(I_0, q_0), (I_0, q_1), (I_1, q_0), (I_1, q_1)$ ）が生成されます。スコアリングには、XOR パターンに従う 3 つの主要セル（BASE, TEXT_FLIP, IMAGE_FLIP）が使用され、4 つ目のセル（DOUBLE_FLIP）は診断用として別途記録されます。

2.3 評価指標

モデルの性能を多角的に評価するための指標群が導入されています。

CAA (Confidence-aware Accuracy with Abstention): 正解時の高確信度を報酬とし、誤答には 0、保留には一定の部分的なクレジット（ $\alpha=0.25$ ）を与える指標。安全性重視の設計です。
MEFR (Minimal-Edit Flip Rate): 画像編集またはテキスト編集に対して、正解ラベルが反転した際にモデルも正しく回答を反転させた割合。
SelRank: 確信度に基づいて回答をソートした際、高確信度の回答が正解であるかを示す選択的予測の品質指標。
ToMAcc: 第二人称の視点推論（例：「A は B がカードを見ているか知っているか」）の正答率。

最終スコアは、CAA (70%)、MEFR (15%)、SelRank (10%)、ToMAcc (5%) の加重和で計算されます。

3. 主要な貢献

VB ベンチマークの提案: 視認性要因（視線、遮蔽、フレーム外、照明など）を分類した 8 種類のタキソノミーと、制御された最小編集を用いた 2×2 デザインを採用。
評価指標の suite: 保留と確信度の較正を明示的に考慮した CAA や MEFR などの指標を開発。
大規模モデル評価: 9 種類の VLM（最新・前世代のクローズドソース、8B〜12B オープンソース）を評価し、能力差や較正のばらつきを明らかにした。
データ公開: 完全なデータセット、メタデータ、評価コードを公開。

4. 実験結果

9 モデル（GPT-4o, GPT-5, Gemini 3.1 Pro, Claude Opus 4.5, Gemini 2.5 Pro, Claude 3.7 Sonnet, Gemma 3 12B, InternVL3-8B, Qwen3-VL-8B）を評価した結果は以下の通りです。

総合スコア: GPT-4o (0.728) と Gemini 3.1 Pro (0.727) がトップで同率でした。次いで Gemini 2.5 Pro (0.678) が続きます。
オープンソース vs クローズドソース: 最良のオープンソースモデルである Gemma 3 12B (0.505) は、前世代のクローズドソースモデル（Claude 3.7 Sonnet: 0.476）を上回りました。これは 8-12B パラメータ規模のオープンソースモデルが視認性推論において一定の能力を持つことを示しています。
テキスト編集 vs 画像編集の非対称性: 9 モデル中 6 モデルで、テキスト編集（否定文への対応）への頑健性（T_MEFR）が、画像編集への頑健性（I_MEFR）よりも高いことが判明しました。特に GPT-4o は T_MEFR 0.893 に対し I_MEFR 0.800 でした。
確信度の較正: GPT-4o と Gemini 2.5 Pro は同程度の精度（CAA）を持ちましたが、選択的予測の品質（SelRank）では大きく異なりました。Gemini 2.5 Pro は確信度の低い回答の方が正しい傾向（SelRank -0.106）を示し、較正が不十分であることがわかりました。一方、Gemini 3.1 Pro は最も優れた較正（SelRank 0.394）を示しました。
第二人称視点推論 (ToMAcc): GPT-4o (0.952) が他を圧倒し、オープンソースモデルはこれに大きく劣る傾向がありました。

5. 意義と結論

VB は、VLM が「見えること」と「存在すること」を区別し、証拠不足時に判断を保留する能力を評価する重要なステップです。

安全性への寄与: 自動運転や医療など、誤判断が許されない分野において、モデルが「わからない」と言える能力（保留と確信度の較正）は、単なる精度以上に重要です。
研究の指針: 現在のモデルはテキストの論理操作には強いものの、微妙な視覚的変化（画像編集）の検出には弱いという「非対称性」が明らかになりました。また、精度と確信度の較正が一致しないモデルが存在することも示唆され、今後のトレーニングや較正手法の改善が求められます。
オープンソースの進展: 8-12B パラメータのオープンソースモデルが前世代のクローズドソースモデルに追いつきつつあることは、視認性推論能力の民主化を示唆しています。

今後は、より多様な環境でのデータ収集、第二人称推論セクションの拡大、および画像編集への頑健性を向上させるための研究が期待されます。

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images