(MGS)2^2-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

该论文提出了(MGS)2^2-Net 框架,通过引入利用深度先验的微几何尺度适应模块和基于膨胀几何梯度的宏几何结构过滤模块,有效解决了跨视角地理定位中因视角差异导致的几何失配问题,从而在多个基准数据集上实现了最先进的性能。

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

本文介绍了 MiDAS,这是一个开源且与平台无关的多模态数据采集系统,它能够在无需专有机器人接口的情况下,通过非侵入式方式实现手术机器人(如 Raven-II 和 da Vinci Xi)的时间同步多模态数据采集,并发布了包含疝修补缝合任务的首个多模态数据集。

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

UrbanAlign 提出了一种无需修改模型权重的后处理语义校准框架,通过自动挖掘可解释维度、构建“观察者 - 辩论者 - 裁判”链提取概念分数,并利用局部加权岭回归将冻结视觉语言模型的概念提取能力校准为人类偏好,从而在 Place Pulse 2.0 数据集的城市感知任务中显著超越了现有基线。

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

该论文提出了名为 DPCache 的免训练加速框架,通过将扩散模型采样加速建模为全局路径规划问题,利用动态规划从校准集中构建路径感知成本张量以自动选择最优关键时间步序列,从而在显著减少计算开销的同时有效避免误差累积并提升生成质量。

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

本文提出了大规模合成视频场景图数据集 SVG2 及其配套的生成模型 TRaSER,通过全自动流水线构建包含数百万对象与关系的时空图数据,并利用轨迹对齐机制显著提升了视频场景图生成及视频问答任务的性能。

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

该论文针对现有全色锐化方法在高分辨率场景下泛化能力不足的问题,提出了首个跨尺度数据集 PanScale 与基准 PanScale-Bench,并设计了名为 ScaleFormer 的新型架构,通过将图像分辨率泛化转化为序列长度泛化,实现了在未见尺度下的高质量融合与卓越泛化性能。

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ 是一种无需训练的认知结构化框架,通过“编辑什么”和“如何编辑”的双阶段推理及自选择机制,在无需微调的情况下实现了超越现有开源及闭源模型的指令驱动图像编辑性能,同时显著提升了视觉一致性和任务可解释性。

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs