cs.CV 篇论文 | Gist.Science

Compressed-Domain-Aware Online Video Super-Resolution

该论文提出了一种利用运动矢量、残差图和帧类型等压缩域信息的 CDA-VSR 网络，通过运动矢量引导的可变形对齐、残差门控融合及帧类型感知重建模块，在 REDS4 数据集上实现了比现有最先进方法 TMP 更高的重建质量（PSNR 提升 0.13 dB）和两倍以上的推理速度，从而解决了带宽受限场景下在线视频超分辨率实时处理的难题。

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

本文提出了一种名为 Masked Motion Diffusion Model (MMDM) 的扩散生成框架，通过引入运动学注意力聚合机制学习上下文自适应运动先验，有效解决了视觉动作捕捉中的遮挡问题，实现了在动作细化、补全及插值等多种任务下的高效高质量 3D 运动重建。

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

本文提出了 TDM-R1，一种基于轨迹分布匹配（TDM）的新型强化学习范式，通过解耦奖励学习与生成器训练并引入每步奖励信号，成功解决了少步扩散模型无法利用非可微奖励（如人类偏好）进行优化的难题，在文本渲染、视觉质量及偏好对齐等任务中实现了最先进的性能。

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

PARSE: Part-Aware Relational Spatial Modeling

该论文提出了名为 PARSE 的框架，通过引入以部件为中心的装配图（PAG）和空间配置求解器来显式建模物体部件间的几何交互，并基于此构建了包含 10,000 个 3D 室内场景的 PARSE-10K 数据集，从而显著提升了视觉语言模型的布局推理能力以及 3D 场景生成的物理一致性与结构复杂性。

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

本文针对视觉语言模型在空间推理任务中的“空间智能差距”，提出了名为 3ViewSense 的框架，通过引入基于正交视图的“模拟与推理”机制，将自我中心感知与外部参考对齐，从而显著提升了模型在遮挡计数和视角一致性推理等复杂空间任务中的表现。

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

AR2-4FV 提出了一种利用静态背景构建锚点库以作为持久语义记忆的新方法，通过锚点图、重入先验和 ReID 门控机制，有效解决了固定视角视频中目标长期遮挡或离镜后的语言引导重定位与身份连续性问题，显著提升了重捕获率并降低了延迟。

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

该论文提出了一种名为 DECADE 的无监督扩散模型，通过引入时间一致性约束，有效解决了铷 -82 动态心脏 PET 成像中因缺乏配对数据和高噪声导致的去噪难题，在提升图像质量的同时保持了血流动力学参数的定量准确性。

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

本文提出了 MedQ-Deg 基准，通过涵盖 18 种退化类型、7 种成像模态及 30 个能力维度的大规模评估，揭示了当前医疗多模态大语言模型在图像质量退化下性能系统性下降且普遍存在“过度自信”的校准偏差问题。

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

该论文提出了一种几何知识引导的联邦双重知识蒸馏（GK-FedDKD）框架，通过利用局部协方差矩阵聚合生成全局几何知识来指导卫星遥感影像分析，有效解决了多卫星数据异构性挑战，并在 EuroSAT 等数据集上显著超越了现有最先进方法。

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

Parameterized Brushstroke Style Transfer

该论文提出了一种参数化笔触风格迁移方法，通过将图像从像素域转换到笔触域进行风格化，从而克服了传统像素级方法在模拟真实绘画笔触效果上的局限性，实现了更自然的视觉呈现。

Uma Meleti, Siyu Huang2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

本文提出了名为 OrdinalBench 的基准数据集，旨在通过标准化的 N 阶物体识别任务及包含 3.9 万条带推理轨迹的数据，系统评估并诊断视觉语言模型在理解序数（特别是大数值和复杂路径场景）时的泛化能力局限。

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

该论文提出了结构化高斯图像（SGI）框架，通过基于种子的多尺度局部空间分解与隐式神经高斯生成，结合熵压缩和粗到细的优化策略，实现了在显著提升高分辨率图像压缩率与优化速度的同时，保持甚至提升图像保真度。

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

本文提出了 4DRC-OCC 方法，通过融合 4D 雷达与相机数据实现鲁棒的 3D 语义占据预测，并引入了全自动标注数据集以解决恶劣环境下的感知挑战并降低对人工标注的依赖。

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

该论文提出了 MWM（移动世界模型），通过引入动作条件一致性后训练和推理一致性状态蒸馏技术，解决了现有导航世界模型在多步预测中视觉漂移及训练与推理不一致的问题，从而显著提升了基于规划的图像目标导航任务的视觉保真度、轨迹精度和推理效率。

Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

本文提出了 HybridStitch，一种将图像生成视为编辑任务的新型文生图范式，通过在像素和 timestep 级别动态划分难易区域并协同使用大模型与小模型，实现了比现有混合模型方法更快的推理加速（在 Stable Diffusion 3 上达到 1.83 倍提速）。

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

该研究通过在夏威夷云雾林部署低成本相机陷阱，结合视觉基础模型与传统计算机视觉技术，实现了对植物物候变化及动植物相互作用的细粒度监测，揭示了传统粗粒度采样难以发现的生态趋势。

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

该研究通过在 CSIRO 牧场生物量基准上的系统评估揭示了“融合复杂度反转”现象，即在数据稀缺的农业场景下，简单的双层门控深度卷积模块优于复杂的跨视图注意力或 SSM 架构，且骨干网络的预训练规模对性能的影响远超融合机制的选择。

Mridankan Mandal2026-03-10🤖 cs.LG

cs.CV