ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation
本論文は、CLIP などの大規模視覚言語モデルのワンショット適応における安定性と可塑性のジレンマを解決するため、ゼロショット知識と視覚プロトタイプの融合、サポートセットの拡張、分布の補正、マルチスケール RBF カーネルの Ensemble といった多段階のトレーニングフリー手法「ReHARK」を提案し、11 のベンチマークで既存手法を大幅に上回る SOTA 性能を達成したことを報告しています。