Face and body representations converge along the visual hierarchy in models… — やさしい解説

原著者： van Dyck, L. E., Dobs, K.

公開日 2026-02-18

📖 1 分で読めます☕ さくっと読める

原著者： van Dyck, L. E., Dobs, K.

原論文は CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ⚕️ これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。免責事項の全文を読む

🧐 研究の核心：「顔」と「体」は別々？それともセット？

私たちは誰かを見るとき、顔を見て「あ、あの人だ！」と認識したり、体の動きを見て「走っているな」と判断したりします。
昔から科学者たちは、**「脳の中には『顔専門の部屋』と『体専門の部屋』が完全に分かれて存在している」のか、「最初から顔と体が混ざり合って処理されている」**のか、議論を続けていました。

この研究は、**「実は、最初は分かれていても、後でどんどん混ざり合っていく」**という新しい答えを見つけました。

🤖 1. AI（人工知能）の「料理教室」

研究者たちは、まず「AI（ディープニューラルネットワーク）」という、大量の画像を見て学習するコンピュータを「料理教室」に例えて実験しました。

初心者（最初の層）：
AI が画像を見始めたばかりの段階では、**「顔の専門家」と「体の専門家」**が別々に働いています。
- 顔の専門家は「目や鼻」だけを見て反応します。
- 体の専門家は「手足や服の形」だけを見て反応します。
- この段階では、二人は全く別の部屋で作業しています。
ベテラン（後半の層）：
しかし、学習が進んで画像の全体像を理解するようになるにつれ、**「顔と体の両方を知っているミックスした専門家」**が現れます。
- この「ミックス専門家」は、顔も体も同時に見て、「あ、これは『人』だ！」と判断します。
- 研究の結果、この「ミックス専門家」こそが、AI の最終的な判断において最も重要な役割を果たしていることがわかりました。

🧠 2. 人間の脳も同じ「チームワーク」だった！

次に、この AI の仕組みを人間の脳（fMRI 画像）と比べてみました。

脳の「後方（奥）」：
視覚の入り口に近い部分は、AI の初心者と同じように、**「顔専門エリア」と「体専門エリア」**がはっきりと分かれていました。
脳の「前方（手前）」：
しかし、情報を処理するにつれて、これらのエリアは**「顔と体の情報が混ざり合う」**ようになります。
- 面白いことに、「顔だけを見る脳細胞」や「体だけを見る脳細胞」よりも、「顔と体の両方を見る脳細胞」の方が、脳全体の活動パターンをよりよく説明できることがわかりました。

🍳 アナロジー：スープの味付け

分離型： 顔の味（塩）と体の味（胡椒）を別々の鍋で煮ている。
統合型（この研究の発見）： 最初は別々でも、最終的には**「顔と体が混ざった美味しいスープ（一人の人間）」**として完成している。
- 脳は、顔の情報と体の情報をバラバラに処理するのではなく、**「混ざり合った状態」**で「誰か」を認識しているのです。

🎭 3. なぜ「混ざり合い」が必要なのか？

では、なぜ脳はわざわざ「顔」と「体」を混ぜるのでしょうか？

柔軟な対応：
「顔だけ」の専門家がいると、帽子を被って顔が見えないときは困ってしまいます。「体だけ」の専門家だと、マスクをして体が隠れていれば困ります。
しかし、**「顔と体の両方を知っているミックス専門家」がいれば、「顔が見えなくても体で、体が見えなくても顔で」**相手を認識できます。
状況に応じた使い分け：
- 顔の識別（誰だ？）には「顔の専門家」が活躍。
- 誰が何をしているか（走る、座る）には「体の専門家」が活躍。
- 全体としての人間（あの人はどんな人？）には「ミックス専門家」が活躍。

このように、「専門特化」と「柔軟な統合」のバランスを取ることで、私たちは複雑な人間関係をスムーズに処理できているのです。

💡 まとめ：脳と AI は「協力して成長する」

この研究が教えてくれたことは、以下の 3 点です。

最初は別々： 脳も AI も、最初は「顔」と「体」を別々のパーツとして認識します。
後で融合： 情報が上流（奥）に行くにつれ、顔と体が混ざり合い、「一人の人間」として統合されます。
ミックスが最強： 純粋な「顔専門」や「体専門」だけでなく、**「両方を知っているミックスな神経」**が、私たちの「人を見る力」を支えている鍵です。

つまり、私たちの脳は、**「顔と体を別々のパズルピースとして集め、最後に一つの完成された絵（人間）」**として組み立てているのです。AI も同じように学習することで、私たちが「人」をどう見ているかを教えてくれました。

この論文「Face and body representations converge along the visual hierarchy in models and cortex（モデルと皮質における顔と体の表現は視覚階層に沿って収束する）」は、深層ニューラルネットワーク（DNN）と機能性磁気共鳴画像法（fMRI）を組み合わせて、人間の視覚野において「顔」と「体」の情報がどのように処理・統合されているかを解明した研究です。

以下に、問題提起、手法、主要な貢献、結果、そして意義について詳細な技術的サマリーを記述します。

1. 問題提起 (Problem)

人間の視覚システムは、他者を認識し、感情を読み取り、意図を推測するために、顔と体の両方からの視覚手掛かりを利用します。しかし、脳がこれらの信号を**「分離して（segregated）」処理するのか、「統合して（integrated）」**処理するのか、あるいはその中間的な状態にあるのかについては、依然として議論が続いています。

分離説: 顔と体は異なる機能的経路で処理される（重なりは解像度の限界による）。
統合説: 顔と体は連続的な表現空間を共有する。
部分的統合説: 後部領域では分離し、前部領域で統合される、あるいは視覚階層に沿って漸進的に統合される。

従来の神経画像研究では、顔選択性領域（例：FFA）と体選択性領域（例：FBA）が隣接し、しばしば重なり合うことが示されていますが、その機能的境界は不明瞭です。本研究は、この問いに対して、視覚認識に最適化された DNN を計算モデルとして用い、その内部表現と人間の視覚皮質の対応関係を調べることで、解決を図りました。

2. 手法 (Methodology)

本研究は、DNN の内部ユニット解析と大規模 fMRI データを用いたエンコーディングモデル解析の 2 つの柱で構成されています。

A. 深層ニューラルネットワーク（DNN）の解析

モデル: 主に AlexNet ベースのモデル（Ecoset 上で教師あり学習されたモデル、ImageNet で Barlow Twins 目的関数を用いた自己教師あり学習モデル）を使用しました。さらに VGG16 なども検証対象に含まれます。
ユニットの分類: 畳み込み層の各空間位置を個別のユニットとして扱い、顔、体、風景、物体のグレースケール画像に対する応答に基づき、以下の 3 種類に分類しました。
1. 顔選択性ユニット (Face units): 顔に対してのみ選択的。
2. 体選択性ユニット (Body units): 体に対してのみ選択的。
3. 混合選択性ユニット (Mixed-selective units): 顔と体の両方に対して選択的（他のカテゴリより強く反応）。
特徴可視化: Guided Grad-CAM を用いて、各ユニットタイプがどの視覚特徴に反応しているかを可視化しました。
機能的重要性の評価: 顔認識、人物認識、行動認識の 3 つのタスクに対して、各ユニットタイプを「アブレーション（機能停止）」させ、精度低下を測定することで、各ユニットの機能的役割を評価しました。
統合性の検証: 顔と体の刺激を単独、組み合わせ、背景のみで提示し、線形結合からの逸脱（相互作用効果）を計算することで、情報が「加法的（部分的）」に統合されているか「相乗的（シナジー）」に統合されているかを検証しました。

B. fMRI データ解析 (Natural Scenes Dataset)

データ: 8 名の被験者が数千枚の自然画像を見た際の高分解能 fMRI データ（Natural Scenes Dataset, NSD）を使用。
関心領域 (ROI) の定義: 顔、体、風景、物体の機能局在化タスクを用いて、顔選択性領域（OFA, FFA, aTL-faces）、体選択性領域（EBA, FBA, mTL-bodies）、および両方に選択的な重なり領域を定義しました。
エンコーディングモデル: DNN のユニット活動から fMRI ボクセル応答を予測するモデル（非負のリッジ回帰）を構築し、説明分散（ $R^2$ ）を計算しました。
分散分解: 顔ユニット、体ユニット、混合ユニットの寄与を、固有分散（Unique variance）と共有分散（Shared variance）に分解し、視覚階層（後部から前部）に沿った変化を分析しました。

3. 主要な貢献と結果 (Key Contributions & Results)

A. DNN における混合選択性の発見

視覚認識に最適化された DNN には、顔選択性、体選択性だけでなく、**「混合選択性ユニット」**が明確に存在することが確認されました。
これらのユニットは中間層で出現し、後段の層（fc7 など）でその割合が増加します。これは、顔と体の情報が中レベルの特徴処理段階から統合され始めていることを示唆しています。
混合選択性は、顔と体の組み合わせに特異的であり、他のカテゴリ対（例：顔と風景）よりも顕著に現れます。

B. 脳との対応関係と視覚階層における収束

予測精度: 顔選択性領域や体選択性領域の fMRI 応答を予測する際、純粋な選択性ユニットよりも混合選択性ユニットの方が最も高い説明力を示しました。
分散の性質: 顔・体選択性ユニットは対応する領域で固有分散を説明しますが、共有分散（Shared variance）の説明には主に貢献しています。
階層的な統合: 後部領域（OFA, EBA など）では分離した表現が支配的ですが、前部領域（FFA, FBA, 前頭側頭葉など）に向かうにつれて、統合された表現（共有分散＋混合ユニットの寄与）の割合が系統的に増加しました。これは、視覚階層に沿って「分離」から「統合」へと表現が収束していくことを示しています。

C. 混合選択性の機能的役割と処理様式

タスクへの寄与: アブレーション実験により、混合ユニットは複数のタスク（顔認識、人物認識、行動認識）に対して柔軟に情報を提供することが示されました。
- 顔認識：顔ユニットが最も重要。
- 人物認識：体ユニットが最も重要。
- 行動認識：複数のユニットタイプが関与。
部分的な統合（Part-based processing）: 顔と体の情報を「相乗的（シナジー）」に統合しているのではなく、**「加法的（部分的）」**に統合していることが判明しました。つまり、混合ユニットは顔と体の情報を単純に足し合わせたような応答を示し、全体像を「ホリスティック（全体として）」に統合するのではなく、パーツの組み合わせとして処理している傾向があります。

4. 意義 (Significance)

本研究は、以下の点で重要な学術的意義を持っています。

理論の統合: 「分離説」と「統合説」の対立を解決し、**「部分的に分離されつつ、視覚階層に沿って漸進的に統合される」**という中間的なモデルを支持する強力な証拠を提供しました。
DNN と脳の類似性: 視覚認識タスクに最適化された DNN が、人間の視覚皮質で見られるような複雑な選択性（純粋な選択性と混合選択性の共存）と階層的な組織化を自発的に獲得することを示し、DNN が脳機能の優れた計算モデルであることを再確認しました。
処理メカニズムの解明: 顔と体の統合が、高度なシナジーによるものではなく、**「パーツベースの加法的処理」**に基づいている可能性を指摘しました。これは、脳が「全体の人」という独立した表現を新たに作り出すのではなく、既存の顔・体表現を組み合わせることで効率的に処理している可能性を示唆します。
機能的柔軟性: 混合選択性ユニットは、特定のタスクに特化するのではなく、複数のタスクにまたがって情報を柔軟に読み出せる（flexible readout）役割を果たしている可能性が示されました。これは、自然環境下での多様な人物知覚タスクを効率的に処理するための適応戦略であると考えられます。

結論として、この研究は、顔と体の表現が視覚系において厳密に分離されているわけでも、完全に融合しているわけでもなく、**「分離と統合のバランスを取りながら、視覚階層の上流へ進むにつれて統合度が高まる」**という動的なプロセスによって構成されていることを明らかにしました。

Face and body representations converge along the visual hierarchy in models and cortex