Do Models See in Line with Human Vision? Probing the Correspondence Between LVLM Representations and EEG Signals

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「最新の AI（特に画像と言葉を理解する AI）は、人間の脳がものを見るのと同じように『見ている』のか？」**という興味深い問いに答えた研究です。

まるで「AI の頭の中」と「人間の頭の中」を比較して、どれだけ似ているかをチェックするような実験でした。

以下に、専門用語を排し、わかりやすい例え話を使って解説します。

🧠 1. 研究の目的：AI と人間の「脳波」を比べる

これまでの研究では、AI が人間の脳と似ているか調べるために、fMRI（機能的磁気共鳴画像法）という機械を使っていました。これは脳の「どこ」が活動しているかを詳しく見られますが、「いつ」活動しているかを捉えるのが苦手です（写真のようなスナップショットに近いイメージ）。

しかし、この研究では**EEG（脳波）**を使いました。これは頭の上に電極をつけて、脳波の動きを捉えるものです。

fMRI ＝高画質の静止画（場所の特定は得意だが、動きは遅い）
EEG ＝高速な動画（場所の特定は少しぼやけるが、瞬間瞬間の動きをミリ秒単位で捉えられる）

研究者たちは、「AI が画像を見て処理する瞬間」と「人間が同じ画像を見て脳波が反応する瞬間」を、1000 分の 1 秒単位で比較しました。

🔍 2. 実験の方法：AI の「中間層」と人間の「思考の瞬間」をマッチング

AI は、画像を認識する過程で、何層ものフィルター（レイヤー）を通します。

浅い層：エッジや色、形などの単純な情報。
深い層：「これは猫だ」「これは車だ」といった意味や概念。

人間も、目から入った情報は、まず「形」を認識し、次に「何の物体か」を理解します。この研究では、32 種類の異なる AI モデルを使って、どの層の情報が、人間の脳波のどの瞬間と最も似ているかを調べました。

🌟 3. 驚きの発見：3 つの重要なポイント

この研究から、AI と人間の脳には驚くほど似た「共通言語」があることがわかりました。

① 「中間の層」が最も似ている

AI の一番浅い部分（単純な形）や一番深い部分（最終的な答え）ではなく、「中間の層（8〜16 層目あたり）」が、人間の脳が画像を見てから0.1 秒〜0.3 秒後の反応と最もよく一致していました。

例え話：AI が「これは丸い赤いもの」と認識し、次に「これはリンゴだ」と考える**「考えの途中」**の状態が、人間の脳がリンゴを認識する瞬間とピタリと重なっていたのです。

② 「大きさ」より「設計図」が大事

「AI を大きくすればするほど、人間の脳に近くなる」と思われがちですが、実は**「設計（アーキテクチャ）」の方が重要**でした。

発見：パラメータ（AI の知識量）を大きくする効果よりも、「画像と言語を同時に学習させる設計（マルチモーダル）」の方が、脳との親和性を3.4 倍も高めることがわかりました。
例え話：AI の性能を上げるには、単に「本を大量に読ませる（パラメータ増）」だけでなく、「絵を見て『これは何？』と会話する練習（マルチモーダル学習）」をさせる方が、人間の脳の仕組みに近づくのです。

③ 脳の「信号の流れ」と同じ順序で動く

AI が画像を処理する順序は、人間の脳が視覚情報を処理する順序（後頭葉→頭頂葉など）と、時間的な流れが一致していました。

例え話：AI の頭の中で情報が流れる「川の流れ」が、人間の脳の「川の流れ」と全く同じルートとタイミングで流れていることが確認できました。

📈 4. 結果：AI が上手なほど、脳との距離は近い

さらに面白いことに、**「AI が画像認識や質問応答のテストで高得点を取るほど、人間の脳波との距離が近かった」**のです。

意味：AI が「人間らしく」ものを見ているかどうかは、単なるテストの点数だけでなく、「脳波の反応」という生物学的な指標でも測れることが証明されました。

💡 5. この研究が意味すること

この研究は、AI が単なる「計算機」ではなく、**「人間の視覚認知と似た仕組みで世界を理解し始めている」**ことを示唆しています。

今後の展望：この「脳との一致度」を新しい基準（ベンチマーク）として使えば、より人間に優しく、直感的に使える AI を作れるようになります。
応用：脳波と AI の関係を理解することで、脳と直接つながる「ブレイン・コンピュータ・インターフェース」や、人間の思考に寄り添う新しい AI の開発につながるかもしれません。

まとめ

この論文は、**「AI の頭の中を覗き見ると、そこには人間の脳と同じような『ものを見るリズム』が流れている」と教えてくれました。AI が人間に近づくためには、単に大きくするだけでなく、「言葉と画像を一緒に学ぶ設計」**が鍵であるという、AI 開発への重要なヒントが見つかったのです。

Each language version is independently generated for its own context, not a direct translation.

以下は、提示された論文「Do Models See in Line with Human Vision? Probing the Correspondence Between LVLM Representations and EEG Signals」の技術的な要約です。

1. 研究の背景と課題 (Problem)

大規模視覚言語モデル（LVLMs）は、画像キャプション生成や視覚的質問応答（VQA）などで優れた視覚理解・推論能力を示しています。しかし、これらのモデルの内部表現が人間の視覚認知とどの程度一致しているか、特に時間的・空間的な脳活動のダイナミクスとの対応関係は十分に解明されていません。

既存の研究の多くは、空間分解能が高いが時間分解能が低い機能的磁気共鳴画像法（fMRI）データに依存しており、人間の視覚処理がミリ秒単位で展開される動的かつ階層的なプロセスであるという特性を捉えきれていませんでした。したがって、LVLM の内部表現と、視覚刺激に誘発される脳活動（特に高時間分解能を持つ EEG 信号）との対応関係を定量的に評価し、どのような要因（アーキテクチャ、モデル規模、画像タイプなど）がその整合性を決定づけるかを明らかにすることが課題でした。

2. 手法 (Methodology)

本研究では、32 種類のオープンソース LVLM と、画像提示時に記録された EEG 信号の対応関係を分析するために、以下の手法を採用しました。

データセット: 10 人の被験者から収集された大規模な EEG データセット「THINGS-EEG」を使用。1,654 の物体概念（トレーニング用）と 200 の概念（テスト用）が含まれます。
モデル: ViT ベースのモデル、Qwen2.5/3-VL、LLaVA-v1.5/Next、InternVL3/3.5、DeepSeek-VL2、SAIL-VL2 など、9 つのモデルファミリーに属する 32 種類の LVLM を対象としました。
特徴量抽出: 視覚エンコーダの最終層の全視覚トークンの埋め込みを平均化して抽出し、さらに層ごとの表現も取得しました。
分析手法:
1. リッジ回帰 (Ridge Regression): 異なるモデル層からの画像特徴量を、各 EEG センサーの信号に線形マッピングし、予測精度（ピアソン相関など）を評価。
2. 表現類似性分析 (RSA): 予測された EEG 表現と実際の EEG 表現の幾何学的構造を比較（CKA、RSA スコア、Kendall 相関など）。
評価軸:
- 予測性能（信号レベルと表現レベル）。
- 時空間パターン（脳領域ごとの相関、時間窓ごとの変化）。
- 層 - 時間対応関係（どのモデル層がどの時間窓の脳活動と対応するか）。
- カテゴリ依存性（12 種類の ImageNet カテゴリごとの相関）。
- 性能との相関（OpenCompass ベンチマークスコアとの関係）。

3. 主要な貢献 (Key Contributions)

LVLM-EEG 整合性の初探求: 既知の範囲で初めて、画像誘発 EEG 信号を用いて LVLM と人間の脳反応の対応関係を体系的に分析しました。
階層的・時間的整合性の発見: LVLM が人間の視覚処理と強く整合していることを示しました。特に、中間層（8-16 層）が、人間の視覚処理のピークである 100-300ms の時間窓と最も強く対応しています。
アーキテクチャ設計の重要性: モデルの規模（パラメータ数）よりも、マルチモーダルなアーキテクチャ設計の方が脳との整合性に大きく寄与することを発見しました。具体的には、マルチモーダル設計の影響はパラメータスケーリングの約 3.4 倍でした。

4. 主要な結果 (Results)

モデル間での性能差:
- InternVL3.5 シリーズ（特に 38B モデル）が最も高い脳との整合性を示しました（ピアソン相関 0.2649）。
- Qwen シリーズやLLaVA-Nextも高い性能を示しましたが、純粋な視覚モデル（ViT）やLLaVA-v1.5は、マルチモーダルな LVLM に比べて脳との整合性が有意に低かったです。これは、言語による監督が視覚特徴の学習に不可欠であることを示唆しています。
- モデル規模の影響: 規模を大きくしても性能が必ずしも向上するわけではありません（例：Qwen3-VL 8B が 32B よりも高い場合がある）。アーキテクチャの設計が規模よりも支配的な要因です。
時空間的対応関係:
- 時間的: 中間層（8-16 層）が、視覚刺激後 100-300ms の EEG 活動（高次視覚認知処理）と最も強く対応しています。浅い層や深い層、あるいは時間的に早い/遅い領域との対応は弱いです。
- 空間的: 相関の高い領域は、視覚処理の初期段階である後頭葉（Occipital）から、空間処理や統合に関わる頭頂葉（Parietal）へと時間経過とともに広がるパターンを示し、人間の視覚経路（腹側・背側経路）のダイナミクスと一致しました。
カテゴリ依存性とベンチマークとの相関:
- 生物学的に重要なカテゴリ（両生類、地質構造など）は高い相関を示しましたが、視覚・意味的に単純なカテゴリ（果物、車両など）は相関が低かったです。
- 重要な発見: LVLM と脳の類似度（脳との整合性）は、OpenCompass ベンチマークでのタスク性能（特に「マルチモーダル創作」や「マルチモーダル推論」）と強く正の相関（ $R^2 \approx 0.6$ ）を示しました。これは、脳との整合性がモデルの視覚理解能力の指標として有効であることを意味します。

5. 意義と結論 (Significance)

本研究は、LVLM が単に統計的なパターンを学習しているだけでなく、生物学的な視覚処理と構造的・機能的に整合した表現を学習していることを実証しました。

評価基準の確立: 脳活動（EEG）との整合性を、LVLM の評価・改善のための生物学的に根拠のあるベンチマークとして確立しました。
設計指針: モデルの規模を単純に増やすことよりも、マルチモーダルなアーキテクチャ設計や、人間の視覚処理の階層性を模倣することが、より人間に適合した AI を構築する上で重要であることを示しました。
将来展望: この知見は、神経科学に基づいた AI の開発や、脳インスパイアードのマルチモーダルアプリケーションの構築に寄与すると期待されます。

制限事項として、本研究はオープンソースモデルに限定されており、閉源モデル（GPT-4V など）の評価は含まれていません。また、EEG の空間分解能の限界により、深部脳領域の活動は完全に捉えきれていない点も指摘されています。