Is CLIP ideal? No. Can we fix it? Yes!

CLIP の潜在空間が持つ本質的な幾何学的限界を理論的に証明し、画像パッチとテキストトークンの意味的トポロジーを保持する「密接コサイン類似度マップ(DCSM)」という新しいスコアリング手法を提案することで、CLIP の根本的な課題を克服し、多様なベンチマークで性能を向上させることを示した。

Raphi Kang, Yue Song, Georgia Gkioxari, Pietro Perona

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

CLIP は完璧じゃない?でも、僕たちはそれを「直せる」!

~AI の「目」と「耳」のすれ違いを、新しい地図で解決する~

この論文は、現在の AI 界のスター選手である**「CLIP(クリップ)」という技術について、「実は根本的な欠陥がある」と指摘し、それを「地図(DCSM)」**という新しい考え方で直す方法を提案しています。

難しい数式や専門用語は横に置いて、**「料理」「地図」**の例えを使って、わかりやすく解説します。


1. CLIP とはどんな AI?(現在の「天才」)

CLIP は、「画像」と「文章」を同じ言語で理解できる AIです。
例えば、「赤い車」という写真と、「赤い車」という文章を並べると、AI は「あ、これは同じものだ!」と高得点を出します。逆に、「青い空」という文章には低得点です。

この仕組みのおかげで、Google 画像検索や、AI による画像生成(Midjourney など)が爆発的に進歩しました。CLIP は**「すごい天才」ですが、「ある特定のルール」でしか物事を判断できないという「致命的な弱点」**を持っています。

2. CLIP の弱点:なぜ「赤い車と青いボール」が「青い車と赤いボール」と混同される?

CLIP の最大の弱点は、**「複雑な組み合わせ」や「否定」**が苦手なことです。

  • 属性の結びつけ失敗:

    • 画像:「赤い車」と「青いボール」
    • 文章 A:「赤い車と青いボール」
    • 文章 B:「青い車と赤いボール」
    • CLIP の反応: 「え?どっちも『車』と『ボール』と『赤』と『青』が含まれてるじゃん!どっちも正解(高得点)だ!」
    • 現実: 文章 B は完全に間違いです。CLIP は「何と何がつながっているか」を区別できません。
  • 空間関係の失敗:

    • 「猫が犬の上にいる」画像に対して、「犬が猫の上にいる」という文章も、CLIP は「猫と犬がいるから OK」としてしまい、上下関係を無視してしまいます。
  • 否定の失敗:

    • 「黄色いコートを着ていない人」という検索をしても、CLIP は「黄色いコート」の画像を「関連あり」として出してしまいます。「ない」という言葉の重みを理解できないのです。

3. なぜ CLIP は直らないの?(根本的な「几何学」の問題)

著者たちは、CLIP の欠陥は「もっとデータを集めれば直る」ような単純な問題ではないと突き止めました。

【アナロジー:丸いテーブルと座席】
CLIP は、すべての情報を**「丸いテーブル(球体)」**の上に配置して、似ているものを近くに置こうとします。

  • 「赤い車」と「青い車」は似ているので、テーブル上で少し離れる程度に置かれます。
  • しかし、「赤い車と青いボール」と「青い車と赤いボール」を、この丸いテーブル上で**「完全に区別できる位置」に配置しようとすると、「物理的に不可能」**になってしまうのです。

**「同じ要素(赤、青、車、ボール)を使っているなら、どんな組み合わせでも、テーブル上の位置は同じになってしまう」という、数学的なジレンマ(矛盾)が起きているのです。
つまり、CLIP という「丸いテーブル」の仕組みそのものが、複雑な世界を表現するには
「狭すぎる」**のです。

4. 解決策:DCSM(高密度コサイン類似度マップ)

では、どうすればいいのでしょうか?著者たちは、CLIP を捨て去るのではなく、**「CLIP が持っている情報を、もっと詳しく読み取る」**方法を考えました。

【アナロジー:料理のレシピと味】

  • CLIP の従来の方法:
    料理(画像)とレシピ(文章)を一口食べて、「うまい(似ている)」か「まずい(違う)」かを**「1 点」**で判断します。「全体的に似ているから OK!」という感じですね。

  • 新しい方法(DCSM):
    一口で判断するのではなく、「料理のすべての部分」と「レシピのすべての言葉」を、1 対 1 で照合する「詳細な地図」を作ります。

    • 画像の「左側の部分」と文章の「左」という言葉。
    • 画像の「赤い部分」と文章の「赤」という言葉。
    • 画像の「車」の部分と文章の「車」という言葉。

    これらをすべて結びつけて、**「どの言葉が、画像のどの部分と対応しているか」を網羅的にチェックするマップ(DCSM)**を作ります。

このマップを見ると、CLIP は「赤い車と青いボール」と「青い車と赤いボール」を同じように見えていたとしても、「赤」という言葉が「車」に対応しているか、それとも「ボール」に対応しているかという**「対応関係のパターン」**が全く違うことに気づきます。

5. 結果:小さな AI で劇的な改善

著者たちは、この「詳細な地図(DCSM)」を、**「小さな CNN(画像認識 AI)」**に読み込ませて、正解か不正解かを判断させました。

  • 驚くべきこと: CLIP の本体(天才部分)はそのまま使い、「読み方」だけを変えるだけで、**「属性の結びつけ」「空間関係」「否定」**のすべてで、従来の CLIP よりもはるかに高い精度を達成しました。
  • コスト: CLIP を最初から作り直す必要はありません。既存の CLIP を使った上で、この「地図読み取り AI」を少し追加するだけなので、計算コストも非常に安いです。

まとめ

  • 問題点: 現在の CLIP は、「丸いテーブル」に情報を詰め込む仕組みのため、複雑な「A は B の上にある」「C は赤くない」といった**「関係性」や「否定」を正しく表現できない**という根本的な限界がある。
  • 解決策: 1 点で判断するのではなく、**「言葉と画像の細部をすべて照合する詳細な地図(DCSM)」**を作り、そのパターンを学習させることで、CLIP の弱点を補う。
  • 結論: CLIP は「完璧」ではないが、「使い方を少し変える(地図を読む)」だけで、劇的に改善できる!

この研究は、AI を「もっと賢く」するために、**「新しいデータを集める」という従来のアプローチではなく、「既存の情報をどう読み解くか」**という視点の転換が重要であることを示しています。