SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

本論文は、インプリシット・ニューラル・リプレゼンテーション(INR)におけるパラメータ冗長性を解消し、空間混合モジュールとチャネル混合モジュールを分離したハイブリッド共有方式を採用することで、スケーラごとの処理を効率的に再帰的に実行する新たなフレームワーク「SRNeRV」を提案し、大幅なモデル縮小とレート歪み性能の向上を実現したものである。

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

本論文は、MICCAI 2024 で公開された UWF4DR チェレンジデータセットを用い、深層学習モデル(CNN、ViT、基盤モデル)と広視野画像(UWF)を組み合わせることで、画像品質評価、参照可能な糖尿病網膜症の検出、および糖尿病性黄斑浮腫の検出という 3 つの臨床タスクにおいて高い性能を達成し、特徴レベルの融合や周波数領域表現の有効性を示した研究です。

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

この論文は、センサー欠損時にも単一モダリティで動作可能な協調知覚フレームワーク「SiMO」を提案し、長さ適応型マルチモーダル融合(LAMMA)と「Pretrain-Align-Fuse-RD」学習戦略によって、モダリティ間の競合を解消しつつ単一モダリティとマルチモーダル双方で最適な性能を維持することを示しています。

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

本論文は、自律走行における動的な 4 次元シーン再構成の課題を解決するため、VGGT を拡張し、時相対応や運動意識型注意機構、および 3D ガウススプラッティングを用いて動的な点の動きを効率的に学習するユニファイドなフードフォワードフレームワーク「DynamicVGGT」を提案するものである。

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

この論文は、拡散モデルの重み変化がノルムよりも方向に依存することを発見し、これを低ランク回転行列で効率的にモデル化する「WaDi」と呼ばれる新しいワンステップ画像合成蒸留フレームワークを提案し、従来の手法よりもはるかに少ない学習パラメータで最先端の生成品質と汎用性を達成したことを示しています。

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

本論文は、高速な物体追跡においてモーションブラーやフレームレート制限に直面する従来の RGB-D カメラの課題を解決するため、イベントカメラの高時間分解能を活用し、イベントベースのオプティカルフローによる姿勢推定とテンプレートベースの姿勢補正を融合した学習不要な 6 次元物体姿勢追跡手法を提案するものです。

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

本論文は、超音波画像の陰影や視点依存性を克服し、アノテーションなしで脊椎の完全な 3D 形状を再構成するための、音響パラメータとニューラルインプリシット表現を統合した新しい手法「OSCAR」を提案し、既存の手法を大幅に上回る精度を達成したことを示しています。

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

この論文は、視覚言語モデルの可視エンコーダーを変更せず、意図や運動、物体相互作用など多段階の抽象度で記述された構造化されたセマンティックプロンプトを導入する軽量フレームワーク「SP-CLIP」を提案し、ゼロショット行動認識の精度、特に細粒度および構成的な行動の認識を大幅に向上させることを示しています。

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

本論文は、放射線レポートに基づいて 3D 視覚言語エンコーダで関連する臨床事例を検索し、その解剖学的注釈を ControlNet を介して注入することで、テキスト条件付き潜在拡散モデルを用いた CT 画像生成において、意味的な制御と解剖学的な整合性を両立させる新しい手法を提案するものです。

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

本論文は、大規模言語モデルと視覚言語モデルを用いて自動生成された概念マスクに基づき、ビジョン・トランスフォーマーの内部関連性マップを最適化することで、背景などの偽相関への依存を減らし、分布外データに対する頑健性と解釈可能性を向上させる新しいファインチューニング手法を提案し、その有効性を複数のベンチマークで実証したものである。

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

本論文は、従来の 2D 画像融合の限界を克服し、DINO 特徴量や生成事前知識を活用した 4 次元時空間モデルにより、単眼動画から高ダイナミックレンジ(HDR)の放射輝度場と 3 次元シーンフローを統合的に再構築する「HDR-NSFF」を提案し、動的シーンにおける HDR 空間時間ビュー合成の最先端性能を達成したものである。

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

この論文は、Epic Kitchens データセットから作成された最小識別可能領域(MIRCs)を用いた大規模な人間と AI の比較研究を通じて、人間が空間的・時間的制約下でも手と物体の相互作用などの重要な視覚的手がかりに依存して行動認識を行うのに対し、AI モデルは文脈や低レベルの特徴に依存し、人間とは異なる認識パターンを示すことを明らかにしています。

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

この論文は、デジタル病理におけるマルチインスタンス学習モデルのヒートマップの妥当性を検証する新たな枠組みを提案し、アテンションや勾配に基づく手法よりも摂動法や層別関連性伝播(LRP)などの説明手法がモデルの意思決定をより正確に反映し、生物学的な洞察をもたらすことを大規模ベンチマークと実証実験を通じて示しています。

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Δ\DeltaVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

本論文は、現在の世界知識を明示的な事前情報として捉え、その変化(バリエーション)を離散潜在空間でモデル化する「Δ\DeltaVLA」という事前知識ガイド型のビジョン・言語・アクションモデルを提案し、ロボット操作タスクにおいて最先端の性能と効率性を達成したことを報告しています。

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

この論文は、拡散モデルを用いたデータ拡張(DiffDA)の手法を「モデル微調整」「サンプル生成」「サンプル活用」の 3 つの構成要素に分解する統一的な分析フレームワーク「UniDiffDA」を提案し、多様な低データ分類タスクにおける公平なベンチマーク評価を通じて、手法間の比較や設計指針を明確化しています。

Zekun Li, Yinghuan Shi, Yang Gao, Dong Xu2026-03-10💻 cs