Language modulates vision: Evidence from neural networks and human brain-lesion models

深層ニューラルネットワークと脳損傷データを用いた研究により、言語処理が視覚野の活動に因果的に影響を与え、言語と視覚を統合したモデル(CLIP)が人間の脳活動のより良い説明を提供することが示されました。

Haoyang Chen, Bo Liu, Shuyue Wang, Xiaosha Wang, Wenjuan Han, Yixin Zhu, Xiaochun Wang, Yanchao Bi

公開日 2026-03-19
📖 1 分で読めます☕ さくっと読める
⚕️

これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。 免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

1. 研究の背景:AI と脳の「似ている・似ていない」ゲーム

まず、研究者たちは「AI が人間と同じように物を見ているか?」をチェックするゲームをしていました。

  • AI の役割: 画像を見て「これは何?」と分類するコンピュータモデル。
  • 人間の役割: 画像を見て脳をスキャン(fMRI)し、どの部分が反応しているかを見る。

これまでの研究では、AI が「言葉(言語)」を学習していないと、人間の脳の反応とあまり合いませんでした。しかし、**「言葉(キャプション)」と一緒に画像を学習した AI(CLIP など)**は、人間の脳の反応と驚くほどよく一致しました。

【比喩】
まるで、**「写真を見るだけの人」「写真を見ながら『これは猫だ、可愛いね』と声に出している人」**がいます。
後者の「声に出している人」の方が、人間の脳の動きに似ていることが分かりました。「言葉」が視覚の処理に深く関わっているのではないか?という仮説が立ちました。

2. 疑問点:AI は「ブラックボックス」すぎる

しかし、ここで問題が起きました。AI は「ブラックボックス(中身が見えない箱)」なので、**「なぜ言葉が入ると脳に似るのか?」**が分かりませんでした。

  • 言葉が入っているから?
  • それとも、言葉が入ることで「複雑な関係性(ハンマーと手はセットだ、など)」を捉える能力が高まったから?(これは言葉でなくても捉えられるかもしれない)

これを確かめるために、研究者たちは**「人間の脳にダメージを与える」**という、少し過激ですが決定的な実験を行いました。

3. 実験:脳卒中患者さんの「配線」を調べる

研究チームは、脳卒中で脳の「言葉のエリア」と「見るエリア」をつなぐ**「配線(白質線維)」が切れてしまった患者さん 33 人**のデータを分析しました。

  • 見るエリア(VOTC): 物を見る場所。
  • 言葉のエリア(左角回など): 言葉や意味を扱う場所。
  • 配線: これら 2 つをつなぐ道路のようなもの。

【比喩】
脳を**「都市」**だと想像してください。

  • 見るエリアは「写真館」。
  • 言葉のエリアは「図書館」。
  • 配線は、写真館と図書館をつなぐ**「高速道路」**です。

健康な人の脳では、この高速道路がしっかり通っています。しかし、脳卒中の患者さんでは、この道路が**「渋滞」や「崩壊」**を起こしています。

4. 驚きの結果:道路が壊れると AI の性能が逆転した!

研究者たちは、3 つの AI モデルを使って、患者さんの脳が画像をどう処理しているかを予測しました。

  1. 言葉なし AI(MoCo): 画像だけを見て学習。
  2. 言葉あり AI(CLIP): 画像+言葉で学習。

【結果】

  • 健康な人(道路が通っている): 「言葉あり AI」の予測が、脳の実態と非常に一致しました。
  • 配線が壊れた患者さん(道路が崩壊):
    • 「言葉あり AI」の予測力がガクンと落ちました
    • 逆に、「言葉なし AI」の予測力が上がりました

【意味するところ】
これは、「言葉と視覚をつなぐ道路(配線)が壊れると、脳は『言葉の力』を使えなくなり、ただの『画像を見るだけ』の状態に戻ってしまう」ことを意味します。
つまり、人間の脳が物を見る時、
「言葉のエリア」と常に会話しながら見ている
ことが証明されたのです。

5. 左脳が重要な理由

さらに面白いことに、この効果は**「左脳」**で特に強く見られました。
人間の言語機能(話す・読む)は主に左脳で支配されています。今回の研究でも、左脳の配線が壊れると、言葉の効果が消えました。右脳の配線が壊れても、同じような効果は出ませんでした。

【比喩】
左脳は**「翻訳官」**が座っている部屋です。
写真館(視覚)で見たものを、翻訳官(言語)が即座に「これはリンゴだ」と翻訳して、写真館のイメージを鮮明にしています。
翻訳官との連絡線(配線)が切れると、写真館はただの「色の塊」や「形」しか見えなくなります。

まとめ:この研究が教えてくれること

  1. 視覚は言葉で彩られる: 私たちが「物」を見る時、それは純粋な「光の受け取り」ではなく、「言葉や意味」と組み合わさった複雑なプロセスです。
  2. AI 開発へのヒント: 人間の脳に似た AI を作るには、単に画像を大量に見せるだけでなく、「言葉」との結びつきを学習させることが不可欠です。
  3. 脳の可塑性: 脳は固定された機械ではなく、言葉とのつながりによって、視覚の処理方法そのものが動的に変化しています。

一言で言えば:
**「人間の脳は、物を見る時に『言葉』というフィルターを通して世界を再構築している。そのフィルターを外すと、脳は AI にとっての『言葉なしモデル』と同じように、単純な画像処理しかできなくなる」**というのが、この研究の核心です。