On the Explainability of Vision-Language Models in Art History

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が芸術作品を『見る』とき、実際には何を見ているのか？そして、その『見方』を人間に説明できるのか？」**という問いを、美術史の専門家たちの視点から探求したものです。

難しい専門用語を避け、日常のイメージを使って解説しますね。

1. 舞台設定：AI と芸術の「翻訳」

まず、**CLIP（クリップ）**という AI について考えてみましょう。
CLIP は、何百万枚もの「写真」と「説明文」のセットを勉強した天才的な翻訳機のようなものです。

普通の AI： 「これは猫だ」「これは車だ」と、ラベルを貼るだけ。
CLIP： 「悲しげな猫」「速い車」といった、文脈や雰囲気がわかるまで理解したふりをします。

しかし、この AI は**「黒箱（ブラックボックス）」**です。中身がどう動いているか、なぜ「これは蛇だ」と判断したのか、人間には見えません。まるで、魔法の箱が答えを出しているだけのような状態です。

この論文の著者（シュナイダーさん）は、**「この魔法の箱の『中身』を、美術史の専門家が見て納得できる形で説明できるか？」**を試しました。

2. 実験：7 人の「透視図」を探す

著者は、AI の「視線」を可視化する**7 種類の「透視図（XAI 手法）」**を用意しました。
これらは、AI が画像のどの部分を注目しているかを、赤いハイライト（サリエンシーマップ）で教えてくれるツールです。

イメージ： 7 人の異なる「探偵」が、同じ事件現場（絵画）を見て、「犯人（注目すべき部分）はどこだ？」と指差す場面を想像してください。
- 一人は「グラデーション」で指差す（グラディエント系）。
- 一人は「消しゴムで消して様子を見る」系（スコア系）。
- 一人は「CLIP 専用の特殊なメガネ」をかけた系（CLIP Surgery など）。

3. 実験の結果：2 つのテスト

テスト 1：数字で測る「正確さ」

まず、大量の美術作品データを使って、AI が「蛇」や「聖人」といった特定のモチーフを、どこにハイライトしているかをチェックしました。

結果： **「CLIP Surgery」**という最新の探偵が、最も正確に「ここだ！」と指差しました。
しかし： 美術史の専門的なモチーフ（例えば「キリストの磔刑」や「聖セバスティアン」）になると、どの探偵も迷走しました。AI は「蛇」のような具体的な形はわかりますが、「悲しみ」や「聖性」といった抽象的な概念を、絵のどこに当てはめるか迷ってしまうのです。

テスト 2：人間の「納得感」

次に、美術史を学んだ人たちに、7 種類の「探偵の指差し」を見て、「どれが一番しっくりくるか？」を順位付けしてもらいました。

結果： 人間も「CLIP Surgery」や「LeGrad」という探偵の指差しを最も信頼しました。
意外な発見： しかし、「何が正解か」が曖昧な絵（例えば、誰が誰なのか分からない複数の聖母像や、抽象的な「欲望」といった概念）になると、人間同士でも意見が割れ、どの探偵も正解を出せませんでした。

4. 重要な気づき：2 つの壁

この研究から、2 つの大きな壁が見えてきました。

「概念の曖昧さ」の壁
- 美術作品は、単なる「物体」の集合ではありません。「聖母マリア」は、単に「女性」を描いたものではなく、文脈や歴史的背景で意味が変わります。
- AI は統計的なデータで「女性＝聖母」と学習しますが、その**「文脈」までは理解していません**。そのため、AI が指差す場所が、人間の美術史的な解釈とズレることがあります。
「表現の限界」の壁
- 仮に AI が「ここが重要だ」と指差したとしても、それが本当に AI の「理解」を表しているとは限りません。
- メタファー： これは、**「AI の頭の中にある『統計的な残滓（ざんし）』を、人間が『意味』として読み取ろうとしている」**ようなものです。AI は「蛇」の形を認識しているだけで、「悪魔の象徴としての蛇」という深い意味は持っていません。

5. 結論：説明は「対話」である

この論文の結論は、とても哲学的で、かつ現実的です。

AI の「説明」は、絶対的な真実ではない。
赤いハイライトは、AI が「どこを見ていたか」のヒントにはなりますが、それが AI の「理解」そのものを透かしているわけではありません。
重要なのは「人間と AI の対話」。
美術史において、XAI（説明可能な AI）は「答え」を出す道具ではなく、**「人間が AI の見方について、さらに深く考えるきっかけ（プロンプト）」**として使うべきです。

まとめると：
この研究は、「AI に芸術を語らせるのは無理だ」と言っているのではありません。むしろ、**「AI がどう見ているかを知ることで、人間は自分の『見る目』を再確認し、AI の限界と可能性の両方を理解する対話が始まる」**と伝えています。

AI は「魔法の箱」ですが、その箱の蓋を少し開けて中を覗くことで、私たちは「機械の視点」と「人間の視点」の間のギャップを埋めるための、新しい対話を始めることができるのです。

On the Explainability of Vision-Language Models in Art History

1. 舞台設定：AI と芸術の「翻訳」

2. 実験：7 人の「透視図」を探す

3. 実験の結果：2 つのテスト

テスト 1：数字で測る「正確さ」

テスト 2：人間の「納得感」

4. 重要な気づき：2 つの壁

5. 結論：説明は「対話」である

論文要約：美術史におけるビジョン・言語モデルの説明可能性

1. 研究の背景と問題提起

2. 研究方法

評価対象とした 7 つの XAI 手法

ケーススタディ 1：定量的評価（局所化精度）

ケーススタディ 2：定性的評価（人間による解釈可能性）

3. 主要な結果

定量的結果（ケーススタディ 1）

定性的結果（ケーススタディ 2）

4. 重要な貢献と知見

5. 意義と結論

On the Explainability of Vision-Language Models in Art History

1. 舞台設定：AI と芸術の「翻訳」

2. 実験：7 人の「透視図」を探す

3. 実験の結果：2 つのテスト

テスト 1：数字で測る「正確さ」

テスト 2：人間の「納得感」

4. 重要な気づき：2 つの壁

5. 結論：説明は「対話」である

論文要約：美術史におけるビジョン・言語モデルの説明可能性

1. 研究の背景と問題提起

2. 研究方法

評価対象とした 7 つの XAI 手法

ケーススタディ 1：定量的評価（局所化精度）

ケーススタディ 2：定性的評価（人間による解釈可能性）

3. 主要な結果

定量的結果（ケーススタディ 1）

定性的結果（ケーススタディ 2）

4. 重要な貢献と知見

5. 意義と結論

関連論文

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation