Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

本文提出了名为 Spatial4D-Bench 的大规模、多样化 4D 空间智能基准,旨在通过涵盖 18 种任务和 6 个认知类别的约 4 万组问答对,全面评估多模态大语言模型在 4D 空间推理方面的能力并揭示其当前局限性。

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

本文提出了 SRA 2,一种利用预训练 VAE 特征通过轻量级投影层对齐扩散 Transformer 中间潜在特征的内在指导框架,旨在无需外部编码器或双模型设置的情况下,显著加速扩散模型的训练收敛并提升生成质量。

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

本文提出了 SpatialReward,一种通过显式空间推理和像素级证据锚定来解决在线强化学习中“注意力坍塌”感知差距的奖励模型,该模型在多个基准测试中达到最先进水平,并显著提升了图像编辑模型 OmniGen2 的性能。

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS)2^2-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

该论文提出了(MGS)2^2-Net 框架,通过引入利用深度先验的微几何尺度适应模块和基于膨胀几何梯度的宏几何结构过滤模块,有效解决了跨视角地理定位中因视角差异导致的几何失配问题,从而在多个基准数据集上实现了最先进的性能。

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

本文介绍了 MiDAS,这是一个开源且与平台无关的多模态数据采集系统,它能够在无需专有机器人接口的情况下,通过非侵入式方式实现手术机器人(如 Raven-II 和 da Vinci Xi)的时间同步多模态数据采集,并发布了包含疝修补缝合任务的首个多模态数据集。

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

UrbanAlign 提出了一种无需修改模型权重的后处理语义校准框架,通过自动挖掘可解释维度、构建“观察者 - 辩论者 - 裁判”链提取概念分数,并利用局部加权岭回归将冻结视觉语言模型的概念提取能力校准为人类偏好,从而在 Place Pulse 2.0 数据集的城市感知任务中显著超越了现有基线。

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

该论文提出了名为 DPCache 的免训练加速框架,通过将扩散模型采样加速建模为全局路径规划问题,利用动态规划从校准集中构建路径感知成本张量以自动选择最优关键时间步序列,从而在显著减少计算开销的同时有效避免误差累积并提升生成质量。

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

本文提出了大规模合成视频场景图数据集 SVG2 及其配套的生成模型 TRaSER,通过全自动流水线构建包含数百万对象与关系的时空图数据,并利用轨迹对齐机制显著提升了视频场景图生成及视频问答任务的性能。

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs