Each language version is independently generated for its own context, not a direct translation.

🎨 絵画の「思考のメモ帳」を開く：AI がなぜ間違えるのかを解明する「VisualScratchpad」

こんにちは！今日は、最新の AI 研究「VisualScratchpad（ビジュアル・スクラッチパッド）」について、難しい専門用語を使わずに、わかりやすくお話しします。

想像してみてください。AI が絵を見て「これは猫だ！」と言ったとします。でも、実はそれは「猫のぬいぐるみ」でした。AI はなぜ間違えたのでしょうか？
これまでの AI は、その「なぜ」を説明するのがとても難しかったです。まるで、天才的な料理人が「なぜこの料理がまずいのか」を説明できないのと同じです。

この論文は、AI の頭の中にある「思考のメモ帳」を、私たちが直接見て、触って、修正できるようなツールを作りました。それが「VisualScratchpad」です。

🧩 1. なぜ AI は間違えるのか？（3 つの失敗パターン）

このツールを使って研究者たちが AI の頭の中を覗いてみると、AI が間違える原因は大きく分けて 3 つあることがわかりました。

① 「目」は見ていたのに、「脳」が理解できなかった（視覚と言語のズレ）

例え話: AI の「目（ビジョン部分）」は、手袋をした手を見て「手袋だ！」と認識しています。でも、AI の「脳（言語部分）」は「手袋」という言葉と「手」という概念をつなげられず、「これはテーブルの上だ」と間違った答えを出してしまいました。
VisualScratchpad の発見: AI は正しく見ていたのに、言葉と結びつけるのが下手だったんです。質問を「手袋をした手ですか？」と詳しくすると、AI は正解できました。

② 間違った手がかりに「踊らされた」（誤った手がかりへの依存）

例え話: お年寄りが「歩行器」を使っている絵を見せました。AI は「歩行器」を見て、連想ゲームのように「車椅子＝座っている」と勝手に思い込み、「座っている」と答えました。実はお年寄りは立っていたのです。
VisualScratchpad の発見: AI は「歩行器」という間違った手がかりに引きずられていました。この「歩行器」の情報を AI の頭から消すと、正しく「立っている」と答えられるようになりました。

③ 隠れたヒントを「無視」していた（使われていない隠れた手がかり）

例え話: 有名な「アヒルとウサギ」の錯覚絵画があります。AI は最初は「アヒル」と言いましたが、実は「ウサギ」のヒントも頭の中にありました。
VisualScratchpad の発見: AI の頭の中には「アヒル」と「ウサギ」の両方の情報が眠っていました。でも、AI は「アヒル」の情報を強く使って「ウサギ」の情報を無視していました。あえて「アヒル」の情報を消し、「ウサギ」の情報を強くすると、答えが「ウサギ」に変わりました。

🔍 2. VisualScratchpad はどうやって動くの？

このツールは、AI の仕組みを 3 つのステップで可視化します。

AI の「目」を分解する（スパース・オートエンコーダ）:
AI が絵を見たとき、無数の小さな情報（色、形、模様など）に分解します。これを「概念」と呼びます。
言葉とつなぐ（アテンション・マップ）:
AI が「猫」という言葉を出そうとしたとき、絵のどの部分（猫の耳、尾、ひげなど）に注目していたかを、熱い色で表示します。
ヒートマップで「思考のメモ帳」を見る:
どの情報が、どの言葉に関連して使われているかを、色付きの表（ヒートマップ）で見せます。これにより、「あ、この『赤い部分』が『座っている』という言葉に関係しているんだ！」とわかります。

🛠️ 3. このツールで何ができるの？

研究者や開発者は、このツールを使って以下のようなことができます。

デバッグ（修正）: 「なぜ AI は間違った？」と疑問に思ったら、頭の中のメモ帳を開いて、間違った情報（例：「車椅子」の概念）を消してみます。すると、AI が正しく答えるようになります。
操作（ステアリング）: 「もっと『ウサギ』っぽく答えさせたい」と思ったら、「ウサギ」に関連する情報の強さを上げます。
教育: AI がどうやって考えているかを人間が理解できるので、より安全で信頼できる AI を作ることができます。

🌟 まとめ

VisualScratchpadは、AI という「ブラックボックス（中身が見えない箱）」の蓋を開け、中身を**「視覚的なメモ帳」**として見せてくれるツールです。

AI が**「見ていたのに気づかなかった」**
AI が**「間違った勘違いをしていた」**
AI が**「隠れた正解を無視していた」**

これらのミスを、人間が目で見て、手で触って、直せるようにしました。これからの AI は、ただ「正解を出す」だけでなく、「なぜ正解なのか（あるいは間違えたのか）」を私たちに教えてくれる、より信頼できるパートナーになるはずです。

まるで、AI の頭の中にある**「思考のスケッチブック」**を一緒に眺めながら、一緒に正解を探しているような感覚です。✨

Each language version is independently generated for its own context, not a direct translation.

VisualScratchpad: 推論時の視覚的概念分析による VLM の信頼性向上

ICLR 2026 ワークショップ論文の技術的サマリー

本論文は、高性能なビジョン・ランゲージモデル（VLM）が依然として誤った回答を生成する問題に対し、その失敗モードを体系的にデバッグし、解釈可能性を高めるための新しいインタラクティブインターフェース**「VisualScratchpad」**を提案するものです。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義 (Problem)

現在の VLM は高度な性能を示していますが、誤答の原因を特定することは困難です。

解釈性の欠如: モデルがなぜ誤った判断を下したのか（視覚的手がかりの不足か、誤った手がかりへの依存か）を内部構造から説明するメカニズムが不足しています。
ニューロンの多義性: 単一のニューロンが複数の無関係な概念を同時に活性化させるため、従来のメカニズム的解釈手法では特定の概念を特定・操作することが難しい。
既存ツールの限界: 疎なオートエンコーダ（SAE）を用いた研究は進んでいるものの、VLM における推論時の概念分析や因果的介入（ablation）を支援する統合的なインターフェースが存在しなかった。

2. 手法 (Methodology)

VisualScratchpad は、SAE をビジョンエンコーダに直接適用し、テキストトークンとの関連性をアテンションマップを通じて分析するパイプラインを提供します。

2.1 視覚的概念の抽出とリンク

SAE の適用: 凍結された CLIP-ViT-large（ビジョンエンコーダ）の中間表現 $z$ に対して、拡張係数 32 の疎なオートエンコーダ（SAE）を適用します。これにより、高密度な表現が高次元の疎な潜在変数（latents） $h$ に分解され、各潜在変数が特定の視覚的概念（テクスチャ、物体、シーンなど）に対応するようになります。
テキスト - 画像アテンションによるリンク: VLM のクロスアテンション機構を利用します。出力されたテキストトークンが画像のどのパッチ（領域）に注目しているかを表すアテンションマップを計算し、これを SAE の潜在変数の活性化値に重み付けして適用します（ $h^T \cdot attn$ $h^{T} \cdot a tt n$ ）。
- これにより、テキストトークンに関連する視覚領域から活性化された概念が上位にランクされ、無関係な領域からのノイズが排除されます。

2.2 因果的影響の検証（Latent Ablation）

トークン - 潜在変数ヒートマップ: 特定の概念を効果的に操作（ablation）するために、どの潜在変数群が関連しているかを特定する必要があります。出力トークンごとの活性化パターンに基づいて潜在変数をクラスタリングし、ヒートマップとして可視化します。
介入実験: 特定のクラスタ（概念）に対応する潜在変数の活性化値をゼロ（またはユーザー指定値）に置き換えることで、モデルの出力がどのように変化するかを因果的に検証します。

2.3 インターフェース機能

VisualScratchpad は以下の 4 つの主要コンポーネントからなるインタラクティブツールです。

SAE 潜在変数の探索: 学習データセットにおける活性化統計量や、UMAP による概念クラスタの可視化。
モデル推論: ユーザー入力に対する VQA（視覚質問応答）または CLIP 分類タスクの実行。
内部観察: アテンションマップ、トークンごとの潜在変数活性化、ヒートマップ、および参照画像の表示。
内部修正: 選択された潜在変数の操作（削除や強調）によるモデル出力のリアルタイム変更。

3. 主要な貢献 (Key Contributions)

VisualScratchpad の提案: VLM の推論時における視覚的概念の分析、デバッグ、因果的介入を可能にする初の統合的インタラクティブインターフェース。
ビジョンエンコーダへの直接適用とアテンションリンク: 言語モデル内の投影層や複雑なクロスモーダル処理をバイパスし、ビジョンエンコーダの出力に SAE を適用することで、純粋な視覚的概念を抽出し、テキストトークンと直接リンクさせる手法の確立。
トークン - 潜在変数ヒートマップ: 効果的な概念操作のために必要な潜在変数のセットを特定し、直感的に理解できる可視化手法の導入。

4. 結果と発見 (Results & Findings)

LLaVA-Next-8B などのモデルを用いたケーススタディにより、VLM の誤答の 3 つの主要な失敗モードを明らかにしました。

ケース 1: 限られたクロスモーダルアライメント
- 現象: モデルは正しい視覚的手がかり（手袋）を捉えていたが、言語的な概念（「手」）と視覚的表現（「手袋」）の整合性が取れておらず、誤った回答（「表面」）を生成した。
- 対策: 質問を「手袋をつけた手」と具体的に記述することで、モデルは正解を導き出した。視覚的概念は存在するが、言語との対応付けが不十分であることが示された。
ケース 2: 誤った手がかりへの依存 (Misleading Cues)
- 現象: 高齢者が立っているか座っているかの質問に対し、モデルは「座っている」と誤答。画像中の「歩行器」に注目しつつも、「車椅子」や「座る」という誤った連想概念が活性化していた。
- 対策: 「座る」に関連する潜在変数を除去（ablation）すると、回答が「立っている」に反転した。VLM が意味的に不適切な連想に依存していることを示した。
ケース 3: 未使用の隠れた手がかり (Unused Hidden Cues)
- 現象: 錯覚画像（アヒルとウサギ）に対し、モデルは「アヒル」と回答したが、「ウサギ」に関連する概念も内部で活性化していた。
- 対策: 「アヒル」の潜在変数を除去し「ウサギ」のものを強調すると、出力が「ウサギ」に切り替わった。モデルは最終出力には現れない多様な視覚情報を内部に保持していることを示した。

5. 意義と展望 (Significance & Outlook)

信頼性のある AI 設計: VLM の失敗モードを「知覚の欠如」だけでなく「概念の未利用」や「誤った連想」といったメカニズムレベルで特定・修正できるため、AI の安全性と信頼性向上に寄与します。
デバッグの効率化: 研究者や開発者がモデルの内部状態を直感的に理解し、意図した概念を操作してモデルの振る舞いを制御する「概念ステアリング」を可能にします。
将来の拡張: 本アプローチは、大規模な自動実験へのスケーリング、より深いクロスモーダル追跡、および他のマルチモーダルアーキテクチャへの応用への道を開きます。

本論文は、SAE を用いたメカニズム的解釈性を VLM の実用的なデバッグツールへと昇華させ、信頼性の高い AI システム構築に向けた重要なステップを示しています。

VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models