Prompt Tuning for CLIP on the Pretrained Manifold

本論文は、限られた教師ありデータにおけるプロンプトチューニングの過学習と事前学習多様体からの乖離を解決するため、テキストおよび画像モダリティの両方で事前学習幾何学的近傍に表現を制限するコサイン整合性制約と構造的バイアスを導入した「ManiPT」というフレームワークを提案し、複数の転送タスクにおいて基線手法を上回る性能を達成したことを示しています。

Xi Yang, Yuanrong Xu, Weigang Zhang, Guangming Lu, David Zhang, Jie Wen

公開日 2026-02-24
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎓 物語の舞台:名門大学と新卒採用

まず、CLIP(クリップ)というモデルを想像してください。これは、世界中の何億枚もの画像と文章を勉強してきた**「超名門大学の卒業生」です。
この卒業生は、一般的な知識(「犬は四本足で、毛がある」といったこと)を完璧に理解しており、どんな新しい分野でも柔軟に対応できる
「汎用的な能力(マンフォールド)」**を持っています。

しかし、この卒業生を特定の会社(新しいタスク)に雇うとき、**「少人数の面接(限られたデータ)」**しかできない状況があります。

⚠️ 従来の方法の失敗:「過剰適応」の罠

これまでの方法(従来のプロンプトチューニング)では、以下のようなことが起こっていました。

  1. 面接での焦り
    面接官(開発者)は、たった数枚の画像しか見せていません。「この画像は『柴犬』だ」と教えます。
  2. 間違った学習
    卒業生は、一般的な知識(「柴犬は四本足」)よりも、**「面接で見た特定の背景(赤いカーペット)」「画像のノイズ」**に強く反応してしまいます。
    「あ、赤いカーペットがあるから柴犬だ!」と、**表面的なヒント(ショートカット)**を覚えてしまうのです。
  3. 結果
    面接では満点ですが、実際の職場(新しいデータ)で「青いカーペットの柴犬」が出たら、「これは柴犬じゃない!」と間違えてしまいます。
    専門用語ではこれを**「マンフォールドからの漂移(Drift)」**と呼びます。名門大学で培った「正しい知識の道」から外れてしまい、狭い道(過学習)に迷い込んでしまった状態です。

✨ 新しい解決策:ManiPT(マニプト)

この論文が提案する**「ManiPT」は、この失敗を防ぐための「3 つのルール」**を設けた新しい指導方法です。

1. 指南書の維持(コサイン一貫性制約)

たとえ話
「面接で新しいことを学んでも、名門大学で習った『基本の教科書』から大きく逸脱してはいけない」とルール化します。

解説
学習した新しい知識が、元々の「正しい知識の道(マンフォールド)」から遠ざかりすぎないように、常に元の道に近い位置に留まるよう強制します。これにより、赤いカーペットのような「表面的なヒント」に飛びつくのを防ぎます。

2. 段階的な修正(構造的バイアス)

たとえ話
「新しい知識を学ぶとき、**『教科書を捨てて新しい本だけ読む』のではなく、『教科書の上に新しいメモを少し足す』**という形で学びなさい」と指導します。

解説
元々の知識(凍結されたモデル)を完全に捨て去るのではなく、それを土台として、少しずつ修正を加えるように設計しています。これにより、根本的な知識を失わずに、新しいタスクに適応できるようになります。

3. 賢い先生からのアドバイス(LLM による知識強化)

たとえ話
面接で「柴犬」を見せるだけでなく、「柴犬は四本足で、尻尾を振る、毛がふわふわだ」という詳しい説明を AI 先生(LLM)に書いてもらい、それを基準にするようにします。

解説
単なる画像だけでなく、大規模言語モデル(LLM)を使って、その動物や物体についての「正しい定義」を事前に作っておきます。これにより、学習が「表面的な見た目」ではなく、「本質的な意味」に集中するようになります。

🏆 結果:どう変わったのか?

この新しい方法(ManiPT)を使うと、以下のような素晴らしい結果が得られました。

  • 未知の犬種にも対応できる
    面接で見たことのない犬種(新しいクラス)でも、「赤いカーペット」に惑わされず、本質的な特徴で正しく識別できます。
  • 少ないデータでも強い
    画像が 1 枚しかない(1 ショット)ような極端な状況でも、安定して高い性能を発揮します。
  • 他の分野でも活躍
    風景写真、医療画像、衛星写真など、さまざまな分野で、既存の最高水準の方法よりも良い成績を収めました。

📝 まとめ

この論文の核心は、**「AI に新しいことを教えるとき、元々の『正しい知識の道』から外れさせないこと」**です。

  • 従来の方法:「とにかく新しいことを覚えろ!」→ 結果、間違った道(過学習)に迷い込む。
  • ManiPT:「基本の教科書を忘れないで、その上に少しだけメモを足しなさい」→ 結果、どんな状況でも正しく判断できる。

このように、AI が「少人数の面接」でも「名門大学で培った本物の力」を活かせるようになり、より賢く、頼りになる存在になったのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →