Are foundation models for computer vision good conformal predictors?

Each language version is independently generated for its own context, not a direct translation.

🎯 論文の核心：AI は「自信過剰」になりすぎないか？

最近の AI（DINOv2 や CLIP などの「基盤モデル」）は、写真を見て「これは猫だ！」と非常に高い精度で答えることができます。しかし、AI が**「100% 正しい」と思い込んでいる時、実は間違っている**という「自信過剰」な状態が問題視されています。

この論文は、**「コンフォーマル予測（Conformal Prediction）」**という「安全装置」を使って、AI の答えが本当に信頼できるかを検証しました。

🛡️ 比喩：AI は「占い師」ではなく「慎重な相談役」に変わるべき

普通の AI は、**「自信満々の占い師」**のようです。「これは猫です！100% 間違いありません！」と断言します。しかし、自信過剰だと、実は犬なのに猫だと間違えても、同じように自信を持って答えてしまいます。

**「コンフォーマル予測」は、この占い師に「もし自信が 90% 以下なら、答えを『猫か、もしかしたら犬かもしれない』と複数挙げておきなさい」**というルールを課すシステムです。

正解が含まれている確率（カバレッジ）を保証しつつ、答えの候補リストの長さ（セットサイズ）をできるだけ短く保つことが目標です。

🔍 実験でわかった 4 つの重要な発見

研究者たちは、17 種類の最新の AI モデルを使って、この「安全装置」がどう働くかを徹底的にテストしました。

1. 最新の AI は「安全装置」と相性が抜群 🏆

発見: 従来の AI に比べ、最新の「基盤モデル（特に Vision Transformer という仕組みを使ったもの）」は、この安全装置と組み合わせると、**「より少ない候補リストで、正解を確実にカバーできる」**ことがわかりました。
比喩: 従来の AI は「とりあえず 10 個の候補を挙げておけば、その中に正解があるはず」という消極的な態度でしたが、最新の AI は「正解はこれか、これのどちらかだ」とピンポイントで絞り込むのが上手です。特に、画像とテキストを両方理解できる「CLIP」のようなモデルは優秀でした。

2. 「自信を調整する」のは逆効果だった？ 📉

発見: AI の「自信度」を調整して、より現実的な数字にする（キャリブレーション）という一般的な対策は、この安全装置を使うと**「候補リストが不必要に長くなってしまう」**という結果になりました。
比喩: 占い師に「自信過剰になるな、慎重になれ」と指導すると、彼は「いや、猫かもしれないし、犬かもしれない、うさぎかもしれない…」と疑心暗鬼になって候補を次々と挙げてしまうようになりました。
- 結論: 安全装置（コンフォーマル予測）を使うなら、あえて「自信過剰」なままの方が、リストを短く保てる（効率的）かもしれません。

3. 未知の環境（ドメインシフト）では「APS」が最強の盾 🛡️

発見: 訓練データと違う環境（例：訓練は普通の写真、テストはスケッチ画や暗い写真）で AI を使うと、多くの方法が失敗しましたが、「APS（適応的予測セット）」という特定の手法だけが、「正解を逃さない」という約束（保証）を守り続けました。
代償: ただし、その代償として「候補リストが少し長くなる（効率が落ちる）」ことはありました。
比喩: 天候が急変した時、他の方法は「晴れだから傘はいらない」と言って濡れてしまいましたが、APS は「もしかしたら雨かもしれないから、傘も雨具も両方持っておこう」と少し荷物が増えるのを許容して、確実に濡れなかったのです。医療や安全が重要な分野では、この「少しの非効率さ」は許容されるべきだと論文は説いています。

4. 少量のデータで学習させると、ゼロショットより良くなる 📈

発見: 最新の AI は、画像を少しだけ見せて学習させる（ファインチューニング）と、何の学習もせずに使う（ゼロショット）よりも、**「より短いリストで正解をカバーできる」**ようになりました。
比喩: 全く知らない土地に旅行するより、現地の人が「ここは危険、あそこは安全」と少し教えてもらう方が、「どこに行けばいいか」をより的確に絞り込めるという感じです。

💡 私たちへのメッセージ：どう使いこなすべきか？

この論文は、AI を使う際に以下のバランスを考慮すべきだと提案しています。

医療やセキュリティなど、失敗が許されない分野:
- **「候補リストが少し長くても、正解を絶対に逃さない」**ことを優先してください。
- 推奨: 「APS」という手法を使い、最新の基盤モデル（DINO や CLIP）を組み合わせる。
効率やスピードが重要な分野:
- **「リストを短く保ちたい」**場合は、自信を調整（キャリブレーション）しない方が、むしろリストが短くなる可能性があります。

📝 まとめ

この論文は、**「最新の AI は、新しい『安全装置』と組み合わせることで、非常に信頼性の高い判断ができる」**ことを証明しました。

AI に「正解を一つだけ言え」と無理強いするのではなく、**「正解が含まれる可能性が高い候補リストを提示させる」**という考え方に切り替えることで、AI をより安全で、現実の難しい問題（医療診断や自動運転など）に使えるようになる、という未来への道筋を示した研究です。

Each language version is independently generated for its own context, not a direct translation.

1. 問題定義 (Problem)

近年、自己教師あり学習や対照学習の進展により、DINOv2 や CLIP などのビジョン基盤モデルは、従来の教師あり学習モデルを上回る性能を達成し、医療やセキュリティなどリスクの高い分野での応用が進んでいます。しかし、これらのモデルには以下の課題があります。

不確実性の定量化の欠如: 基盤モデルは高い精度を出しますが、その予測がどの程度信頼できるか（不確実性）を適切に評価する仕組みが不足しています。
既存手法の限界: 従来の「較正（Calibration）」手法（温度スケーリングなど）は、予測確率と正解率の一致を目指しますが、理論的な保証（真のクラスが予測集合に含まれる確率）を提供するものではありません。
未検証の領域: 大規模言語モデルにおける共形予測の研究は進んでいますが、ビジョン基盤モデルにおける共形予測の特性（特に分布シフトや微少学習（Few-shot）適応時の挙動）は十分に研究されていませんでした。

本研究は、「基盤モデルは共形予測の枠組みにおいて、安全で信頼性の高い不確実性推定を実現できるか？」という問いに答えることを目的としています。

2. 手法 (Methodology)

著者らは、17 種類の主要なビジョン基盤モデル（DINO, DINOv2, VICReg, CLIP, MetaCLIP, LLaVa など）と、3 つの代表的な共形予測手法を組み合わせ、大規模な実験を行いました。

対象モデル:
- ビジョンモデル: DINO, DINOv2 (ViT ベース), VICReg (CNN ベース)。
- ビジョン - 言語モデル (VLM): CLIP, MetaCLIP, LLaVa, Phi 3.5。
- アーキテクチャ: Vision Transformer (ViT) と Convolutional Neural Network (CNN) の両方を比較。
共形予測手法 (CP Methods):
1. LAC (Least Ambiguous Classifier): ソフトマックス確率の閾値に基づく単純な手法。
2. APS (Adaptive Prediction Sets): ソフトマックス確率を降順に累積し、適応的に予測集合を構築する手法。
3. RAPS (Regularized Adaptive Prediction Sets): APS に正則化項を加え、予測集合のサイズを小さく抑えるように調整した手法。
評価シナリオ:
- 標準設定: CIFAR-10/100, ImageNet での評価。
- 分布シフト (Distribution Shift): ImageNet-R, ImageNet-A, ImageNet-Sketch, ImageNet-V2 などの OOD (Out-of-Distribution) データセット。
- 較正の影響: 温度スケーリング (Temperature Scaling) を適用した前後での CP 性能の変化。
- 微少学習 (Few-shot Adaptation): CLIP を 16 ショットで適応させた場合の、ゼロショット (Zero-shot) との比較。
評価指標:
- セットサイズ (Set Size): 予測に含まれるクラスの平均数（小さいほど効率的）。
- カバレッジ (Coverage): 真のラベルが予測集合に含まれる割合（目標値 $1-\alpha$ に達しているか）。
- カバレッジギャップ (Coverage Gap): クラスごとのカバレッジのばらつき。
- MCCC (Min Class-Conditional Coverage): 最もカバレッジが低いクラスの値（安全性の指標）。

3. 主要な貢献と発見 (Key Contributions & Results)

(1) 基盤モデルは共形予測に適している

従来の教師あり学習モデルと比較して、自己教師あり学習や対照学習で事前学習された基盤モデルは、より小さな予測セットサイズと高い条件付きカバレッジを示しました。
特に、Vision Transformer (ViT) を採用したモデル（DINO, CLIP など）は、CNN ベースのモデルに比べて、分布シフト下でも共形指標の低下が少なく、より頑健であることを示しました。

(2) 最適な共形予測手法の特定

APS (Adaptive Prediction Sets): 分布シフトやモデルの性能低下に対して最も頑健であり、理論的なカバレッジ保証を最もよく満たしました。ただし、その代償として予測セットサイズが大きくなる傾向があります。
RAPS: セットサイズを小さく抑える点では優れていますが、モデルの精度が低い場合や分布シフト下では、特定のクラスのカバレッジが目標値を下回るリスク（MCCC の低下）が高まりました。
LAC: 適応性がないため、クラス間のカバレッジのばらつきが大きく、複雑なタスクでは不安定でした。

(3) 較正（Calibration）が共形予測に与える逆説的な影響

一般的にモデルの較正（温度スケーリングなど）は不確実性推定を改善すると考えられていますが、本研究では較正を行うことで共形予測の効率（セットサイズ）が低下することが発見されました。
較正により確率分布が平滑化され、最も確率の高いクラスのスコアが下がるため、目標カバレッジを満たすために多くのクラスを予測集合に含めざるを得なくなります。
ただし、較正は特に APS においてカバレッジギャップを改善し、クラス間の不均衡を減らす効果がありました。

(4) 微少学習（Few-shot）適応の効果

VLM（CLIP など）を微少データで適応させることで、ID（In-Distribution）データ上ではゼロショット推論に比べてより小さなセットサイズと低いカバレッジギャップが得られました。
しかし、OOD（Out-of-Distribution）データ上では、適応による改善は限定的でした。これは、微少学習が自信過剰（Overconfidence）を引き起こし、結果としてセットサイズが小さくなるためと推測されます。

4. 結論と意義 (Significance)

本研究は、コンピュータビジョンの基盤モデルを安全な実世界アプリケーションに展開する際に、共形予測が有効なツールとなり得ることを実証しました。

実用的な指針: 医療診断など「見逃し（False Negative）」が許されない重要なタスクでは、セットサイズが少し大きくなっても、APS を採用して条件付きカバレッジを最大化することが推奨されます。一方、計算コストやユーザビリティが重視される場面では、RAPS がバランスの良い選択肢となります。
アーキテクチャの重要性: ViT ベースの基盤モデルが、従来の CNN ベースモデルよりも分布シフトに対して頑健な不確実性推定を提供できることが示されました。
較正の注意点: モデルを較正する際は、それが共形予測の「効率」を低下させる可能性があることを認識し、用途に応じてトレードオフを考慮する必要があります。

総じて、この研究は基盤モデルの信頼性評価における新しい基準を提供し、リスク管理が重要な分野での AI 導入を促進する重要な知見をもたらしました。