cs.CV 篇论文 | Gist.Science

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

本文提出了一种基于数字孪生的 V2X 轨迹预测框架，通过结合 Bi-LSTM 生成器与包含标准均方误差及新型“孪生损失”的联合训练目标，在确保预测精度的同时有效降低了交通违规和碰撞风险，从而提升了城市复杂路口多智能体交互场景下的安全性与合规性。

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

AutoThinkRAG 通过引入查询复杂度路由器和将视觉解析与逻辑推理功能解耦的小规模 VLM 与大语言模型协同架构，有效解决了多模态文档问答中的长上下文与信息过载难题，在显著降低推理成本的同时实现了新的最先进性能。

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

本文提出了一种名为“偏差不变子网络提取（BISE）”的策略，旨在无需重新训练或额外数据的情况下，通过剪枝技术从标准预训练模型中直接提取出具备去偏能力且性能鲁棒的子网络，从而实现高效的结构化偏差缓解。

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

本文提出了“空间代码思维”框架，通过将 RGB 视频转化为包含显式 3D 定向边界框和语义标签的结构化空间代码，并结合强化学习微调大语言模型，使其能够在 VSI-Bench 基准上超越现有专有视觉语言模型，实现物理世界视频推理的显著突破。

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

该论文提出了首个针对基于热力图的关键点检测器的耦合鲁棒性验证框架，通过混合整数线性规划将验证问题转化为联合偏差约束下的反例搜索，从而克服了传统解耦方法在连续坐标输出和高维输入下的局限性，实现了对关键点间依赖关系及下游任务需求的更紧确且有效的鲁棒性证明。

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

DreamCAD 提出了一种利用可微参数曲面从点级监督直接生成可编辑 BRep 的多模态生成框架，结合新构建的百万级 CAD 描述数据集，在无需特定 CAD 标注的情况下实现了大规模训练并显著提升了文本、图像及点云到 CAD 生成的几何保真度。

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

该论文提出了一种名为 ABRA 的对抗性批次表示增强方法，通过将生物批次效应建模为域泛化问题，利用极小化极大优化框架合成最坏情况下的批次扰动，从而在无需额外先验知识的情况下显著提升了高内涵细胞筛选中深度学习模型的泛化能力。

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

该论文提出了一种名为“后融合稳定器”（PFS）的轻量级模块，它作为现有鸟瞰图融合检测器的即插即用组件，通过稳定特征统计、抑制退化区域及自适应残差校正，在不改变原有架构的前提下显著提升了多模态 3D 检测在相机丢失、低光照等域偏移和传感器故障场景下的鲁棒性。

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

本文提出了名为 CBM-Suite 的方法论框架，通过引入基于熵的概念适用性度量、在概念与分类器间插入非线性层以解决线性问题、利用教师探针蒸馏缩小精度差距，以及系统分析不同视觉骨干与 VLM 的影响，全面解决了概念瓶颈模型（CBM）在概念评估、线性绕过、精度差距及组件交互研究方面的关键局限。

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

该论文提出了一种名为插值 FID（iFID）的新指标，通过检索数据集中每个样本在潜在空间中的最近邻并插值其潜在表示，成功解决了传统重建 FID 与扩散生成 FID 相关性差的问题，实现了高达 0.85 的强相关性预测。

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

本文针对缺乏理想参考答案的参考自由强化学习场景，提出了通过加权枚举错误而非构建评分标准来生成奖励的“隐式错误计数”（IEC）方法，并在虚拟试衣任务中验证了其优于传统“评分标准即奖励”（RaR）及多种基线的性能。

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

本文提出了名为 SemVID 的训练无关视频时间定位剪枝框架，通过引入证据保留与连通性强度原则，动态分配帧级令牌预算并筛选对象、运动及上下文令牌，在显著降低计算成本的同时有效保持了关键语义证据链的完整性。

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

该论文提出了一种利用调制高斯包络以在任意 k 空间位置放置频谱支持的 Gabor 基元方法，结合低秩时空分解，实现了无需大规模训练数据即可从高度欠采样数据中高效重建具有物理可解释参数的高分辨率心脏电影 MRI 图像，其性能优于压缩感知、高斯基元及哈希网格隐式神经表示等现有基线。

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

本文提出了一种名为 OWL 的新型感知函数，它仅利用视觉运动线索（如局部视觉膨胀和相对旋转）即可在无需预先知道环境或相机运动信息的情况下，实现实时的缩放 3D 场景重建与相机航向估计，从而为机器人导航及理解自然感知提供了新的理论视角。

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

该论文提出了一种基于区域感知扩散模型的伪 3D 纵向脑 MRI 病灶修复框架，通过融合多时相上下文信息，在显著提升图像感知保真度与纵向稳定性的同时，实现了比现有最先进方法快约 10 倍的修复效率。

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

该论文提出了首个名为 MultiHaystack 的大规模跨模态基准测试，旨在评估多模态大模型在包含 4 万多个文档、图像和视频的异构语料库中进行检索与推理的能力，并揭示了当前模型在从大规模混合数据中精准定位证据并据此推理方面存在显著瓶颈。

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

本文提出了名为 AVG 的框架，通过构建包含 20,000 个视频片段的高质量全球基准，利用可解释的听觉感知（将音频分解为“声学原子”）与多模态推理相结合，显著提升了全球音视频地理定位的精度。

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

本文提出了 Any2Full，一种单阶段、领域通用且模式无关的深度补全框架，它通过设计尺度感知提示编码器，将稀疏深度信息转化为提示信号以微调预训练的单目深度估计模型，从而在无需两阶段对齐的情况下实现了更优的鲁棒性与效率。

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

本文提出了一种轻量级且可解释的三维判别直方图梯度幅值（DHoGM）框架，通过融合切片级与体素级特征及低参数分类器，实现了在跨站点条件下对结构脑 MRI 运动伪影的高效、准确且鲁棒的自动检测。

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

该论文提出了一种基于自监督视觉 Transformer 的自动化流水线，将 ImageNet 训练集转换为大规模多标签数据集，在无需人工标注的情况下显著提升了模型的分类精度与下游任务迁移能力。

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs