CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

本論文は、CLIP が単一モダリティ内では属性と物体の結合情報を既に符号化しているものの、クロスモーダルな整合性の欠如によりバグ・オブ・ワーズのような振る舞いを示すことを発見し、単純な線形変換によってこの情報を復元可能であることを示しています。

Darina Koishigarina, Arnas Uselis, Seong Joon Oh

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI 画像認識モデル「CLIP(クリップ)」が実は**「とても賢いのに、なぜか少しバカなところがある」**という不思議な現象を解明したものです。

結論から言うと、CLIP は**「画像」と「文章」を別々に見れば、実はとても賢く、細部まで理解しているのに、「画像」と「文章」を照らし合わせるときだけ、なぜか混乱して間違った答えを出してしまう**ことがわかりました。

これをわかりやすく、3 つのステップで説明しますね。

1. CLIP の「バカなところ」とは?(袋の中の言葉)

まず、CLIP がどんな失敗をするか知っていますか?
例えば、**「オレンジ色の四角形」と「青色の三角形」が描かれた画像があります。
これを CLIP に見せ、「これは『青色の四角形とオレンジ色の三角形』ですか?それとも『オレンジ色の四角形と青色の三角形』ですか?」と聞くと、CLIP は
「どっちも同じだよ!」**といって、ランダムに答えを選んでしまいます。

これを研究者たちは**「袋の中の言葉(Bag-of-Words)」**モデルと呼んでいます。

  • イメージ: CLIP は、画像や文章を「言葉の袋」に入れて、中身が「オレンジ」「四角」「青」「三角」の 4 つの単語が入っていることしか見ていません。
  • 問題点: 「どの色が、どの形に付いているか」という**「つながり(紐付け)」**を無視して、ただ単語のリストとして扱ってしまっているのです。

2. 驚きの発見:実は CLIP は「バカ」じゃない!

これまでの研究では、「CLIP はこのつながりを理解する能力が欠けているんだ」と思われていました。でも、この論文の著者たちは、**「待って、それは違うよ!」**と指摘しました。

彼らは CLIP の頭の中を詳しく調べました。すると、「画像」だけを見せたり、「文章」だけを見せたりしたときは、CLIP は完璧に「オレンジ=四角形」「青=三角形」と理解していることがわかりました。

  • 創造的な例え:
    CLIP は、「左耳」と「右耳」がそれぞれ超能力を持っているようなものです。
    • 左耳(画像認識): 「あ、これは青い三角形だ!」と完璧に聞こえます。
    • 右耳(文章理解): 「あ、これは青い三角形だ!」と完璧に聞こえます。
    • でも、両耳を同時に使うと(画像と文章を照らし合わせると): 「あれ?青い三角形ってどっちだっけ?四角形の方だったかな?」と、耳と耳の情報がバラバラになって、混乱してしまうのです。

つまり、CLIP がバカなのではなく、**「情報の受け渡し(アライメント)」**が下手なだけだったのです。

3. 解決策:「翻訳機」をつければ直る

では、どうすればいいのでしょうか?
論文の著者たちは、**「画像」と「文章」の情報を繋ぐための、とても簡単な「翻訳機(線形変換)」**を付け足すだけで、CLIP のバカなところを直せることを発見しました。

  • イメージ:
    CLIP の「画像を見る部分」と「文章を読む部分」は、それぞれ**「英語圏」と「フランス語圏」に住んでいるようなものです。
    どちらも優秀ですが、お互いの言葉が通じないから、会話(照らし合わせ)が成立しないのです。
    そこで、
    「英語⇔フランス語の翻訳機(簡単な線形レイヤー)」を一つ挟むだけで、お互いの情報が正しく繋がり、「青い三角形」が正しく認識されるようになります。**

この発見がすごい理由

  1. お金も時間もかからない:
    CLIP という巨大な AI を最初から作り直す(再学習させる)必要はありません。既存の AI に、**「小さな翻訳機(線形レイヤー)」**を後付けするだけでいいのです。これは非常に安価で、すぐに実用できます。
  2. 既存のシステムがそのまま使える:
    すでに世界中で使われている CLIP のデータベースを、この小さな翻訳機を通すだけで、より賢く、複雑な理解ができるようになります。

まとめ

この論文は、**「CLIP は実はすごい能力を持っているのに、ただ『言葉と画像の翻訳』が下手なだけだった」**と教えてくれました。

まるで、**「天才的な二人の話し手が、互いの言語を少し変えるだけで、完璧に協力できるようになる」**ような話です。これにより、AI が「赤い車」と「青い車」を混同しないようになり、もっと複雑で賢いタスクができるようになる未来が近づいたのです。