Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

Each language version is independently generated for its own context, not a direct translation.

この論文は、最新の AI（人工知能）が抱えている、少し奇妙で危険な「病気」について報告しています。その病気の名前は**「モーダル・アファシア（Modal Aphasia）」、つまり「感覚の失語症」**と呼ばれています。

これをわかりやすく説明するために、**「天才的な画家だが、言葉が全く出てこない人」**という例えを使ってみましょう。

1. 現象：絵は完璧なのに、言葉はボロボロ

想像してみてください。ある天才画家がいます。彼に「ハリー・ポッターの映画ポスターを描いて」と頼むと、彼は驚くほど正確に、元の絵と見間違うほど美しい絵を描き上げます。

しかし、次に「その絵を言葉で詳しく説明してください」と頼むと、彼は大パニックになります。
「ハリーが持っているのは杖だっけ？剣だっけ？背景にドビーはいたっけ？」と、重要な细节を次々と間違えたり、存在しないキャラクターを勝手に作り出したりしてしまいます。

この論文は、現在の最先端の AI（ChatGPT-5 など）が、まさにこの状態になっていると発見しました。

絵を描く能力： 完璧に近い。
その絵を言葉で説明する能力： 壊滅的に悪い。

AI は「見たこと」を記憶しているのに、それを「言葉にして出力する」ことができないのです。まるで、脳内で絵が鮮明に浮かんでいるのに、口から言葉が出ない「失語症」にかかっているかのようです。

2. なぜこんなことが起きるの？（実験の証拠）

研究者たちは、この現象が単なるバグではなく、AI の根本的な性質だと証明するために、いくつかの実験を行いました。

実験 1：架空の顔と名前
AI に「600 人の架空の人物（名前と顔の組み合わせ）」を覚えさせました。
- 結果：「アリスという名前を出せば、正確な顔の絵を描ける」のに、「アリスの顔の特徴（目の色や髪型）を言葉で答えさせると、ほぼランダムな当てずっぽう」になってしまいました。
実験 2：抽象的な図形
「赤い三角形」や「青い四角形」に、意味のない架空の名前（例：「ペクタティヌル」）を付けて覚えさせました。
- 結果：「ペクタティヌル」と言われれば、正しい図形を描けますが、「ペクタティヌルって何色だっけ？」と聞かれると、AI は答えられませんでした。

これは、AI が「絵と名前」をセットで覚えているのではなく、「絵を描く回路」と「言葉を話す回路」が、実はあまり繋がっていないことを示しています。

3. なぜこれが危険なのか？（セキュリティの罠）

この「失語症」は、単に AI が不器用なだけではありません。実はセキュリティ上の大きな弱点になり得ます。

例え話：「足」の画像を禁止したい場合
ある会社が、AI に「足」の画像を生成させないようにしたいとします。通常、AI の学習データから「足」という単語が含まれる画像をすべて削除し、「足」という言葉を入力すると拒否するように設定します。

しかし、この論文によると、この対策は失敗する可能性が高いです。

AI は「足」という言葉は理解して拒否します。
でも、AI の頭の中には「足」のイメージがしっかり残っています。
もしユーザーが、誰も知らないような「奇妙な隠語（例：『セカンダリー・バランス・ユニット』）」を使って「そのイメージ」を呼び出そうとすると、AI は**「言葉のフィルター」をすり抜けて、足の写真を作ってしまう**のです。

つまり、**「言葉でブロックしても、イメージの記憶は残っているため、別の言葉（コード）を使えば危険な画像を作れてしまう」**という、非常に厄介な抜け道が存在するのです。

4. 結論：AI は「考える」必要がある

この論文の結論は、現在の AI は「絵を描くこと」と「言葉を話すこと」が別々の箱に入っていて、お互いに情報を伝え合えていないということです。

これを直すためには、AI に**「絵を描く前に、まず頭の中でその絵を『視覚化』して、それから言葉にする」**というプロセスを強制的に組み込む必要があるかもしれません。

まとめると：
今の AI は、「絵は描けるのに、その説明ができない」という奇妙な失語症にかかっています。これは単なる不器用さではなく、AI が安全に使えるようになるための大きな課題であり、ハッカーがその隙間を突いて危険な画像を作ってしまうリスクさえ秘めています。AI が本当に「理解」していると言えるようになるには、まだ多くの進化が必要だということです。

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

1. 現象：絵は完璧なのに、言葉はボロボロ

2. なぜこんなことが起きるの？（実験の証拠）

3. なぜこれが危険なのか？（セキュリティの罠）

4. 結論：AI は「考える」必要がある

1. 問題定義：モダリティ失語（Modal Aphasia）

2. 手法と実験設計

A. 実世界モデルでの検証（ChatGPT-5）

B. 制御された合成実験（Janus-Pro, Harmon）

C. セーフティケーススタディ

3. 主要な結果

実世界モデル（ChatGPT-5）の結果

制御実験の結果

セーフティケーススタディの結果

4. 主要な貢献

5. 意義と今後の展望

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

1. 現象：絵は完璧なのに、言葉はボロボロ

2. なぜこんなことが起きるの？（実験の証拠）

3. なぜこれが危険なのか？（セキュリティの罠）

4. 結論：AI は「考える」必要がある

1. 問題定義：モダリティ失語（Modal Aphasia）

2. 手法と実験設計

A. 実世界モデルでの検証（ChatGPT-5）

B. 制御された合成実験（Janus-Pro, Harmon）

C. セーフティケーススタディ

3. 主要な結果

実世界モデル（ChatGPT-5）の結果

制御実験の結果

セーフティケーススタディの結果

4. 主要な貢献

5. 意義と今後の展望

関連論文

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Self-Sovereign Agent

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

GAN-Enhanced Deep Reinforcement Learning for Semantic-Aware Resource Allocation in 6G Network Slicing