A Mixed Diet Makes DINO An Omnivorous Vision Encoder

本論文は、異なるモダリティ間の特徴量整合性を欠く DINOv2 などの事前学習済み視覚エンコーダの問題を解決するため、複数のモダリティ入力に対して一貫した強力な特徴表現を学習する「雑食性視覚エンコーダ」を提案し、教師モデルの知識を蒸留しつつマルチモーダル理解を可能にする新しいフレームワークを提示しています。

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

本論文は、マルチモーダル大規模言語モデル(MLLM)の出力の信頼性を評価し、誤った回答を検出するために、外部ツールを必要とせずモデル内部の機能のみを用いて効率的に動作するトレーニング不要の不確実性定量化フレームワーク「UMPIRE」を提案し、多様なモダリティや敵対的設定において既存手法を上回る性能を実証したものである。

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

この論文は、拡散モデルの推論コストを削減する既存のキャッシュ手法の限界を克服するため、モデル出力の感度分析に基づきサンプルごとに適応的にキャッシュタイミングを決定する「SenCache」という原理的なフレームワークを提案し、Wan 2.1 や CogVideoX などのモデルにおいて計算コストを維持しつつ視覚品質を向上させることを示しています。

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

本論文は、顕微鏡画像の多解像度特性を世界座標系で統合し、広視野の文脈と高解像度の詳細を単一のエンコーダーで融合する新しいトランスフォーマーアーキテクチャ「MuViT」を提案し、合成ベンチマークおよび組織病理学や脳イメージングなどの実データにおいて既存モデルを上回る性能を実証しています。

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

この論文は、従来の一致モデルが抱える整合性ドリフトや幾何学的な非結合という課題を、軌道整合戦略と二重参照構造的補正メカニズムによって解決し、低遅延かつ高品質な実世界画像超解像を実現する「GTASR」という新しい学習パラダイムを提案しています。

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

本論文は、組織病理画像の染色やスキャナに起因するバッチ効果を解決し、モデルの汎化性能を向上させるため、単一のソースデータセットから学習する教師なし表現学習フレームワーク「Latent Manifold Compaction(LMC)」を提案し、その有効性を複数のベンチマークで実証したものである。

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

本論文は、低レベルの視覚特徴と高レベルの行動潜在変数の時間的変化速度の違いに着目し、階層的因果生成過程とスパースな遷移制約を導入することで、弱教師あり行動セグメンテーションにおいて潜在行動変数の厳密な識別性を保証し、既存手法を大幅に上回る性能を達成する「Hierarchical Action Learning (HAL)」モデルを提案するものである。

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

本論文は、Decoupled Diffusion Transformer を用いて「モード探索(局所的なリアリズム)」と「平均探索(長期的な整合性)」を分離・統合する新たな学習パラダイムを提案し、限られた長尺動画データと高品質な短尺動画教師モデルを組み合わせることで、数ステップで高忠実度かつ一貫性のある分単位の長動画生成を実現する手法を提示しています。

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

本論文は、半教師あり学習と潜在拡散モデルを組み合わせ、既存の画像生成モデルからの知識蒸留や拡散ベースのリファイナー、 latent consistency モデルの蒸留、および新しいタイル化技術を通じて、注釈データへの依存を減らしつつ高解像度かつ多様な物理ベースレンダリング(PBR)マテリアルを高速に生成する「StableMaterials」を提案するものである。

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

本論文は、ボクセル単位のセマンティック情報に基づくクエリ初期化と、幾何学的特徴を強化したインタリーブ型トランスフォーマーデコーダを導入することで、大規模な 3D シーンにおける高精度かつ効率的なインスタンスセグメンテーションを実現する SGIFormer を提案し、ScanNet 系列の主要ベンチマークで最先端の性能を達成したことを報告しています。

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

この論文は、既知の偽造ドメインに限定されない未知のドメインへの汎化能力を高めつつ、計算リソースを削減するために、事前学習済み Vision Transformer の構造を維持したまま軽量モジュールのみを最適化するパラメータ効率型のオープンセット Deepfake 検出手法を提案し、偽造スタイルの混合によるドメイン多様性の向上を実現したものである。

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

この論文は、事前学習や知識工学に依存せず単一の例から概念を学習する「真のワンショット学習」を実現するため、ガウス混合モデルに基づく抽象化ガウスプロトタイプ(AGP)フレームワークを提案し、分類タスクだけでなく人間と区別がつかない新規生成タスクも達成できることを示しています。

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

この論文は、既知クラスの情報に基づいて未知クラスを推論する疑似未知埋め込みやマルチスケール対照的アンカー学習などの手法を提案し、従来のオープンボキャブラリー検出モデルが抱える未知物体の検出・学習の課題を解決し、オープンワールド環境下での物体検出性能を飛躍的に向上させるフレームワークを構築したものである。

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI