cs.CV 篇论文 | Gist.Science

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

该论文提出了(MGS) $^2$ -Net 框架，通过引入利用深度先验的微几何尺度适应模块和基于膨胀几何梯度的宏几何结构过滤模块，有效解决了跨视角地理定位中因视角差异导致的几何失配问题，从而在多个基准数据集上实现了最先进的性能。

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

本文介绍了 MiDAS，这是一个开源且与平台无关的多模态数据采集系统，它能够在无需专有机器人接口的情况下，通过非侵入式方式实现手术机器人（如 Raven-II 和 da Vinci Xi）的时间同步多模态数据采集，并发布了包含疝修补缝合任务的首个多模态数据集。

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

本文提出了 DAV-GSWT 框架，通过结合扩散模型先验与主动视角采样技术，实现了仅需少量输入观测即可生成高质量高斯泼溅瓦片，从而显著降低了大规模虚拟环境构建的数据需求。

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

该论文提出了 RobSelf 模型，通过在线联合优化感知错位特征的翻译器与内容感知的参考滤波器，在无需真实配对数据的情况下实现了针对真实世界错位观测的鲁棒跨模态超分辨率，并在性能与效率上均优于现有方法。

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

UrbanAlign 提出了一种无需修改模型权重的后处理语义校准框架，通过自动挖掘可解释维度、构建“观察者 - 辩论者 - 裁判”链提取概念分数，并利用局部加权岭回归将冻结视觉语言模型的概念提取能力校准为人类偏好，从而在 Place Pulse 2.0 数据集的城市感知任务中显著超越了现有基线。

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

该论文通过系统探测视觉基础模型，发现 DINO 编码的几何结构与 Flux 生成的交互先验是构成 affordance（功能 affordance）理解的互补要素，并证明通过零样本融合这两者即可实现媲美弱监督方法的 affordance 估计。

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

StoryTailor 是一个在单张 RTX 4090 上运行的零样本流水线，通过高斯中心注意力、动作增强奇异值重加权及选择性遗忘缓存三大协同模块，实现了无需微调即可生成动作忠实、主体一致且背景连贯的多帧视觉叙事。

Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

本文提出了专为评估视频基础模型而设计的 UniVBench 基准，通过引入包含 200 个高质量多镜头视频及 UniV-Eval 统一智能评估系统，首次实现了对视频理解、生成、编辑及新提出的重建任务这四大核心能力的综合、公平且可扩展的评估。

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Protein Graph Neural Networks for Heterogeneous Cryo-EM Reconstruction

本文提出了一种结合几何先验的图神经网络自编码器方法，通过引入可微分的冷冻电镜前向模型和几何正则化，实现了在未知取向下对蛋白质构象异质性的高精度三维重建。

Jonathan Krook, Axel Janson, Joakim Andén + 2 more2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

该论文提出了名为 DPCache 的免训练加速框架，通过将扩散模型采样加速建模为全局路径规划问题，利用动态规划从校准集中构建路径感知成本张量以自动选择最优关键时间步序列，从而在显著减少计算开销的同时有效避免误差累积并提升生成质量。

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

本文提出了大规模合成视频场景图数据集 SVG2 及其配套的生成模型 TRaSER，通过全自动流水线构建包含数百万对象与关系的时空图数据，并利用轨迹对齐机制显著提升了视频场景图生成及视频问答任务的性能。

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

该论文提出了一种结合任务反馈闭环与文本指令引导的自适应动态去雾框架，能够在无需重新训练的情况下，根据下游任务表现和用户指令实时调整去雾效果，从而灵活满足多样化下游任务的特定需求。

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

cs.CV

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

UniVBench: Towards Unified Evaluation for Video Foundation Models

Protein Graph Neural Networks for Heterogeneous Cryo-EM Reconstruction

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

cs.CV

(MGS)2^22-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

UniVBench: Towards Unified Evaluation for Video Foundation Models

Protein Graph Neural Networks for Heterogeneous Cryo-EM Reconstruction

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization