SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem は、メトリック 3D 空間を解釈可能なインデックス構造として活用し、カジュアルに撮影された egocentric ビデオから構造的な 3D アンカーと階層的なメモリを構築することで、長期にわたる視覚的コンテキストにおける言語に基づく検索や QA、およびナビゲーションを可能にするメモリ中心のシステムです。

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

本論文は、動画ストリームから有限の空間記憶を維持しながら継続的に環境の空間理解を向上させ、3D ポイントクラウドとセマンティック情報を統合して実世界の具現化システムへの展開を可能にするフレームワーク「OnlineSI」を提案し、曖昧さを軽減する新しい評価指標「Fuzzy F1F_1-Score」を用いた実験でその有効性を示しています。

Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

本論文は、外部モデルや二重構造を必要とせず、事前学習済み VAE の特徴と拡散トランスフォーマーの中間潜在特徴を軽量な投影層で整合させる「SRA 2」を提案し、計算コストを大幅に増やすことなく拡散モデルの訓練収束と生成品質を同時に向上させることを示しています。

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

画像編集におけるオンライン強化学習の課題である「注意の崩壊」を解決するため、明示的な空間推論を用いて編集領域をピクセルレベルで検証する報酬モデル「SpatialReward」を提案し、これにより評価精度の向上と画像生成モデルの性能大幅な改善を実現した。

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS)2^2-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

この論文は、斜視航空画像と衛星画像の間の幾何学的な不一致を解決し、GNSS 非依存の UAV 航法におけるクロスビュー地理定位の性能を向上させるため、マクロ幾何構造のフィルタリングとミクロ幾何スケールの適応を統合した新しいフレームワーク「(MGS)2^2-Net」を提案し、University-1652 および SUES-200 データセットで最先端の結果を達成したことを報告しています。

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

この論文は、手術ロボットの専用インターフェースを必要とせず、時間同期されたマルチモーダルデータを非侵襲的に収集できるオープンソースシステム「MiDAS」と、それに付随する注釈付きデータセット( hernia repair 縫合を含む)を提案し、その有効性を検証したものです。

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

DAV-GSWT は、拡散モデルと能動的視点サンプリングを活用して最小限の入力から高品質なガウススプラッティング・ワンタイルを生成し、大規模な仮想環境の構築に必要なデータ量を大幅に削減するデータ効率型フレームワークです。

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

この論文は、現実世界の複雑な空間的不整合を伴う教師なしクロスモーダル超解像課題に対し、不整合を考慮した特徴変換器とコンテンツを考慮した参照フィルタをオンラインで共同最適化する自己教師ありモデル「RobSelf」を提案し、既存手法を凌駕する性能と効率性を実現することを示しています。

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

この論文は、大規模な注釈やモデルの再学習を必要とせず、凍結されたビジョン・言語モデル(VLM)の概念抽出能力を活用しつつ、解釈可能な評価次元の自動抽出とスコア較正を行う「UrbanAlign」というポストホック手法を提案し、都市景観の人間の嗜好予測において既存手法を大幅に上回る精度を達成したことを示しています。

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

本論文は、視覚基盤モデルにおけるアフォーダンス理解が、物体の幾何学的構造を捉える能力と動作との相互作用をモデル化する能力という 2 つの補完的な側面に基づいており、DINO と Flux という 2 つのモデルの特性を学習なしで融合させることで、弱教師あり手法と競合するアフォーダンス推定を実現することを示しています。

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

本論文は、既存の評価基準の限界を克服し、動画理解・生成・編集・再構築の 4 つの能力を包括的に評価するための新たなベンチマーク「UniVBench」と、それを標準的に測定するエージェント評価システム「UniV-Eval」を提案するものである。

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

DPCache は、拡散モデルのサンプリング加速を経路計画問題として定式化し、動的計画法を用いて最適なキータイムステップの系列を選択することで、学習不要で高品質な生成を維持しつつ大幅な高速化を実現する新しいフレームワークです。

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

この論文は、大規模なパンoptic ビデオシーングラフデータセット「Synthetic Visual Genome 2(SVG2)」を構築し、それを基に動画からコンパクトな時空シーングラフを生成するモデル「TRaSER」を開発することで、関係検出や動画質問応答などのタスクにおいて既存の最先端モデルを大幅に上回る性能を達成したことを報告しています。

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

この論文は、下流タスクの性能に基づくフィードバックループとテキスト指示によるガイダンスを統合した閉ループ最適化メカニズムを導入し、再学習なしで多様な下流タスクの要件にリアルタイムに適応する新しい適応的動的除霧フレームワークを提案するものです。

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

本論文は、既存手法の限界を克服し、解像度やスケールに依存しない汎化性能を実現するため、大規模なクロススケールパンシャープニングデータセット「PanScale」とベンチマーク「PanScale-Bench」を提案し、画像解像度の変化をシーケンス長さの変化として捉える新しいアーキテクチャ「ScaleFormer」を開発したことを報告しています。

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

本論文は、プライバシーを保護しつつ高品質なバーチャル試着を可能にするため、教師学習と敵対的学習を統合したモジュール型アーキテクチャ「Mobile-VTON」を提案し、クラウド依存なしでモバイル端末上で高忠実度な試着生成を実現することを示しています。

Zhenchen Wan, Ce Chen, Runqi Lin, Jiaxin Huang, Tianxi Chen, Yanwu Xu, Tongliang Liu, Mingming Gong2026-03-09💻 cs