cs.CV 篇论文 | Gist.Science

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

本文提出了名为 Spatial4D-Bench 的大规模、多样化 4D 空间智能基准，旨在通过涵盖 18 种任务和 6 个认知类别的约 4 万组问答对，全面评估多模态大语言模型在 4D 空间推理方面的能力并揭示其当前局限性。

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

Bayesian Monocular Depth Refinement via Neural Radiance Fields

本文提出了名为 MDENeRF 的迭代框架，通过贝叶斯融合将单目深度估计的全局结构与基于神经辐射场（NeRF）的体渲染不确定性所提取的高频几何细节相结合，从而有效提升了室内场景的深度图精细度。

Arun Muthukkumar2026-03-09🤖 cs.LG

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

本文提出了名为 FlyPose 的轻量级自上而下人体姿态估计框架，通过多数据集训练显著提升了无人机航拍视角下的人员检测与姿态估计精度，并在 Jetson Orin 平台上实现了约 20 毫秒的低延迟实时推理，同时发布了包含困难视角标注的 FlyPose-104 数据集。

Hassaan Farooq, Marvin Brenner, Peter Stütz2026-03-09💻 cs

Robust Sparse Signal Recovery with Outliers: A Hard Thresholding Pursuit Approach Based on LAD

该论文提出了一种无需预先知道信号稀疏度的分级快速硬阈值追踪算法（GFHTP $_1$ ），通过量化截断步长优化 $L_1$ 损失，实现了在存在离群点且无稀疏先验条件下稀疏信号的精确恢复，并证明了其理论收敛性及在鲁棒性和计算效率上优于现有方法。

Jiao Xu, Peng Li, Bing Zheng2026-03-09🔢 math

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem 提出了一种以记忆为核心的系统，利用度量 3D 空间作为可解释的索引支架，从单目 RGB 视频构建分层记忆以支持长程、语言引导的室内场景检索、问答及离线导航任务。

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

本文提出了 OnlineSI 框架，通过维护固定大小的空间记忆并融合 3D 点云与语义信息，使多模态大语言模型能够在视频流中持续进行在线 3D 理解与定位，从而为真实世界的具身系统部署奠定基础。

Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

本文提出了 SRA 2，一种利用预训练 VAE 特征通过轻量级投影层对齐扩散 Transformer 中间潜在特征的内在指导框架，旨在无需外部编码器或双模型设置的情况下，显著加速扩散模型的训练收敛并提升生成质量。

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

FARTrack: Fast Autoregressive Visual Tracking with High Performance

本文提出了 FARTrack，一种通过任务特定自蒸馏和帧间自回归稀疏化技术，在保持高跟踪性能（如在 GOT-10k 上达到 70.6% 的 AO）的同时实现实时高速推理（GPU 上达 343 FPS）的自回归视觉跟踪框架。

Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

本文提出了 SpatialReward，一种通过显式空间推理和像素级证据锚定来解决在线强化学习中“注意力坍塌”感知差距的奖励模型，该模型在多个基准测试中达到最先进水平，并显著提升了图像编辑模型 OmniGen2 的性能。

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

该论文提出了(MGS) $^2$ -Net 框架，通过引入利用深度先验的微几何尺度适应模块和基于膨胀几何梯度的宏几何结构过滤模块，有效解决了跨视角地理定位中因视角差异导致的几何失配问题，从而在多个基准数据集上实现了最先进的性能。

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

本文介绍了 MiDAS，这是一个开源且与平台无关的多模态数据采集系统，它能够在无需专有机器人接口的情况下，通过非侵入式方式实现手术机器人（如 Raven-II 和 da Vinci Xi）的时间同步多模态数据采集，并发布了包含疝修补缝合任务的首个多模态数据集。

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

本文提出了 DAV-GSWT 框架，通过结合扩散模型先验与主动视角采样技术，实现了仅需少量输入观测即可生成高质量高斯泼溅瓦片，从而显著降低了大规模虚拟环境构建的数据需求。

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

该论文提出了 RobSelf 模型，通过在线联合优化感知错位特征的翻译器与内容感知的参考滤波器，在无需真实配对数据的情况下实现了针对真实世界错位观测的鲁棒跨模态超分辨率，并在性能与效率上均优于现有方法。

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

UrbanAlign 提出了一种无需修改模型权重的后处理语义校准框架，通过自动挖掘可解释维度、构建“观察者 - 辩论者 - 裁判”链提取概念分数，并利用局部加权岭回归将冻结视觉语言模型的概念提取能力校准为人类偏好，从而在 Place Pulse 2.0 数据集的城市感知任务中显著超越了现有基线。

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

该论文通过系统探测视觉基础模型，发现 DINO 编码的几何结构与 Flux 生成的交互先验是构成 affordance（功能 affordance）理解的互补要素，并证明通过零样本融合这两者即可实现媲美弱监督方法的 affordance 估计。

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

StoryTailor 是一个在单张 RTX 4090 上运行的零样本流水线，通过高斯中心注意力、动作增强奇异值重加权及选择性遗忘缓存三大协同模块，实现了无需微调即可生成动作忠实、主体一致且背景连贯的多帧视觉叙事。

Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

本文提出了专为评估视频基础模型而设计的 UniVBench 基准，通过引入包含 200 个高质量多镜头视频及 UniV-Eval 统一智能评估系统，首次实现了对视频理解、生成、编辑及新提出的重建任务这四大核心能力的综合、公平且可扩展的评估。

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Protein Graph Neural Networks for Heterogeneous Cryo-EM Reconstruction

本文提出了一种结合几何先验的图神经网络自编码器方法，通过引入可微分的冷冻电镜前向模型和几何正则化，实现了在未知取向下对蛋白质构象异质性的高精度三维重建。

Jonathan Krook, Axel Janson, Joakim Andén + 2 more2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

该论文提出了名为 DPCache 的免训练加速框架，通过将扩散模型采样加速建模为全局路径规划问题，利用动态规划从校准集中构建路径感知成本张量以自动选择最优关键时间步序列，从而在显著减少计算开销的同时有效避免误差累积并提升生成质量。

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

本文提出了大规模合成视频场景图数据集 SVG2 及其配套的生成模型 TRaSER，通过全自动流水线构建包含数百万对象与关系的时空图数据，并利用轨迹对齐机制显著提升了视频场景图生成及视频问答任务的性能。

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

cs.CV