FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

本論文は、事前の厳密な位置合わせを必要とせず、視覚的事前知識を活用して赤外線画像と可視光画像の融合プロセス自体でミスマッチを直接処理し、高精度かつ効率的な融合を実現する汎用的な手法「FusionRegister」を提案するものである。

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

本論文は、動画ストリーミングの帯域幅制限下において、圧縮ドメイン情報(動きベクトル、残差マップ、フレームタイプ)を活用して計算効率と画質のバランスを最適化し、既存の最先端手法よりも高速かつ高精度なオンライン動画超解像を実現する「CDA-VSR」を提案するものである。

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

本論文は、視覚ベースのモーションキャプチャにおけるオクルージョンやノイズの問題を解決するため、部分的な高品質データを用いて不完全なモーションを再構築する拡散モデル「MMDM」を提案し、効率的な運動学アテンション集約(KAA)機構を通じて文脈適応型の運動事前知識を学習することで、モーションの補完や調整など多様なタスクにおいて高い性能を実現する手法を述べています。

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

この論文は、非微分可能な報酬信号(人間の評価やオブジェクト数など)を少数ステップの拡散モデルに統合するための新しい強化学習パラダイム「TDM-R1」を提案し、その有効性をテキスト描画や視覚品質、嗜好アライメントなど多岐にわたる実験で実証したものです。

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

PARSE: Part-Aware Relational Spatial Modeling

本論文は、物体間の粗い関係表現の限界を克服し、物体の部品レベルの幾何学的相互作用を明示的にモデル化するフレームワーク「PARSE」を提案し、これにより物理的に整合性の取れた 3D 室内シーンの生成と空間推論の精度向上を実現したことを示しています。

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

本論文は、視覚言語モデルが抱える「空間知能のギャップ」を解消するため、エンジニアリング認知に着想を得て正投影図に基づく「シミュレーションと推論」メカニズムを導入し、複雑な空間推論タスクの精度を大幅に向上させるフレームワーク「3ViewSense」を提案するものである。

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

本論文は、固定視点動画における長期参照と再識別の課題に対し、静的背景構造から導出したアンカーバンクを永続的な意味記憶として活用し、被写体の不在時や再登場時の追跡を可能にする「AR2-4FV」を提案し、再捕捉率の大幅な向上と遅延の削減を実現したものである。

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

本論文は、対照的なクリーン・ノイズデータの不足やトレーサーの急速な動態といった課題を克服し、教師なし拡散モデル「DECADE」を用いて、Rb-82 心臓 PET 画像の時間的一貫性を保ちながらノイズを低減し、定量的な精度を維持する手法を提案しています。

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

本論文は、医療画像の多様な品質劣化条件下におけるマルチモーダル大規模言語モデル(MLLM)の性能と信頼性を包括的に評価するための新しいベンチマーク「MedQ-Deg」を提案し、モデルが劣化に伴い精度が低下しても過剰な自信を示す「AI ダニング=クルーガー効果」など重要な知見を明らかにしたものです。

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

この論文は、複数の衛星から収集されたリモートセンシング画像のデータ不均一性という課題に対処するため、幾何学的知識を統合したフェデレーティング・デュアル知識蒸留フレームワーク「GK-FedDKD」を提案し、EuroSAT などのデータセットにおいて既存の最先端手法を大幅に上回る性能を達成したことを示しています。

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Vision-Language Models の順序数理解における一般化限界を診断するため、3 万 9 千の質問応答対と構造化された推論トレース評価を提供する新しいベンチマーク「OrdinalBench」が提案され、既存のモデルが大きな順序数や複雑な経路において性能が著しく低下することが示されました。

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

SGI は、シードと軽量 MLP を用いて高解像度画像を構造化された 2 次元ガウスで表現するフレームワークを提案し、これにより既存の 2D ガウス法と比較して最大 7.5 倍の圧縮率と高速な最適化を実現しつつ、画像の忠実度を維持または向上させる。

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

この論文は、悪天候や照明条件の変化に強い 4D レーダーと豊富な意味情報を提供するカメラを融合し、自動運転の 3D セマンティック・オキュパンシー予測の精度と頑健性を向上させる初の研究を提案するとともに、高価な手動アノテーションへの依存を減らすための自動ラベル付きデータセットを導入したことを報告しています。

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

本論文は、マルチステップ展開における視覚的整合性を維持し、推論効率を向上させるために、構造事前学習とアクション条件付き整合性(ACC)の事後学習を組み合わせた二段階トレーニングフレームワークと、整合性を保った推論向け蒸留手法(ICSD)を提案するモバイル世界モデル「MWM」を提案しています。

Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

この論文は、拡散モデルの生成プロセスを「編集」と見なし、画像の難易度に応じて大規模モデルと小規模モデルをピクセルおよびタイムステップレベルでハイブリッドに組み合わせることで、Stable Diffusion 3 において既存の手法を上回る 1.83 倍の高速化を実現する「HybridStitch」という新たな手法を提案しています。

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs