cs.CV 篇论文 | Gist.Science

UniLight: A Unified Representation for Lighting

本文提出了 UniLight，一种通过对比学习和辅助球谐预测任务将文本、图像、辐照度及环境图等多种光照模态统一到共享潜在空间中的表示方法，从而实现了跨模态的光照检索、环境图生成及扩散模型图像合成中的灵活光照控制。

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

本文针对潜在扩散模型逆问题求解器不稳定的问题，通过识别其与稳定反向扩散动力学的差异，提出了一种基于测量一致朗之万更新的理论驱动型即插即用模块（MCLC），从而在无需线性流形假设的情况下显著提升了求解器的稳定性与可靠性。

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

本文提出了一种名为 WCC-Net 的三维扩散模型框架，通过引入小波变换构建的结构先验来引导全身低剂量 PET 图像去噪，在显著降低噪声的同时有效保持了解剖结构的连续性与一致性，并优于现有的 CNN、GAN 及扩散基线方法。

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

该研究提出了一种基于多阶段投影驱动的全自动端到端流程，通过融合正交二维分割估算三维掩膜以提取感兴趣区域，并利用集成 2.5D CNN-Transformer 模型实现了高精度的颈椎骨折检测，其性能媲美专家且降低了中间处理阶段的维度。

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

本文提出了面向医疗领域的 VRFT-Aug 框架，通过注入先验知识、感知驱动策略优化、医学奖励塑形及行为模仿等策略增强感知与推理能力，显著提升了医疗视觉强化微调的效果并优于现有基线。

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

本文介绍了首届生物识别步态国际竞赛，该竞赛利用全球最大的 UNB StepUP-P150 数据集评估了 23 支参赛队伍的模型性能，其中 Saeid_UCC 团队以 10.77% 的等错误率（EER）夺冠，同时也揭示了当前技术在跨鞋类泛化方面仍面临的关键挑战。

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

该论文提出了 VidEoMT，一种仅依赖编码器且无需专用跟踪模块的简易视频分割模型，通过轻量级的查询传播与融合机制实现跨帧信息传递，在保持高精度的同时将推理速度提升了 5 至 10 倍。

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero + 4 more2026-03-05💻 cs

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

该论文提出了一种名为 CASG 的免训练框架，通过动态识别并仅应用与生成状态最匹配的安全引导方向，有效解决了文本到图像扩散模型中因多类别有害冲突导致的安全引导失效问题，从而显著降低了有害内容的生成率。

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor 提出了一种结合多视图法线预测与逆渲染优化的混合方法，仅需少量视图即可在数秒内实现媲美传统密集摄影测量的高保真 3D 头部重建，有效解决了现有方法在细节精度、计算成本与视图需求之间的权衡难题。

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Momentum Memory for Knowledge Distillation in Computational Pathology

本文提出了动量记忆知识蒸馏（MoMKD）框架，通过跨批次聚合多模态信息及解耦梯度更新，有效解决了计算病理学中配对数据稀缺导致的训练不稳定问题，实现了仅凭组织病理学图像即可进行高精度癌症诊断的鲁棒泛化能力。

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

本文提出了一种自动地图密度选择方法，通过分析参考遍历间的匹配模式，能够根据用户指定的局部召回率目标及其覆盖比例（召回达成率），在视觉位置识别系统中动态确定最优地图密度，从而确保系统在环境特定区域满足性能要求并避免过度密集化。

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

本文提出了一种无需训练的空间信用重分配（SCR）方法，通过推理时动态平衡视觉注意力分布来缓解视觉语言模型因“空间信用崩溃”导致的物体幻觉问题，在显著降低幻觉率的同时保持了生成质量与低延迟。

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

本文提出了 EvalMVX 基准数据集，该数据集包含 25 个物体在 20 种视角和 17 种光照条件下采集的 8,500 张图像及对应真值网格，旨在统一评估多视图立体视觉（MVS）、多视图偏振形状恢复（MVSfP）和多视图光度立体视觉（MVPS）等多种神经 3D 重建方法在不同几何细节与反射类型下的性能。

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

本文通过引入焦点损失、轻量级注意力门控和紧凑对齐模块，改进了 MambaBDA 框架，有效解决了卫星影像建筑损伤评估中的类别不平衡、背景干扰及跨域泛化难题，在多个灾害数据集上显著提升了模型性能。

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

本文通过系统研究温度参数与优化器、教师预训练/微调等训练组件之间的相互作用，揭示了影响温度选择的关键因素，为知识蒸馏实践提供了统一且实用的指导。

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

本文提出了 ITO 框架，通过结合多模态多重对齐与训练时融合机制（推理时丢弃）来消除模态间隙并增强表征学习，从而在多个基准测试中显著超越了现有的强基线模型。

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

Toward Early Quality Assessment of Text-to-Image Diffusion Models

本文提出了名为 Probe-Select 的即插即用模块，通过分析扩散和流匹配模型在生成早期（仅 20% 轨迹）的中间激活特征来预测最终图像质量，从而实现对低质量种子图像的提前终止，在降低 60% 以上采样成本的同时提升了保留图像的整体质量。

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

本文通过将 3D 高斯泼溅（3DGS）的图像形成模型推广至非指数辐射传输机制，提出了基于二次透射率的亚线性、线性和超线性变体，在保持与原始方法相当渲染质量的同时，显著减少了过度绘制并实现了高达 4 倍的渲染速度提升。

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

本文提出了 TRACE 框架，通过结合生成式思维链推理与压缩表示学习，并构建 M-BEIR-CoT 数据集进行训练，实现了能够根据查询复杂度自适应切换推理模式、在 M-BEIR 基准上取得最新性能且具备卓越零-shot 泛化能力的通用多模态检索模型。

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

MoECLIP 提出了一种基于混合专家（MoE）架构的零样本异常检测方法，通过动态将图像块路由至专用的低秩适应（LoRA）专家，并结合冻结正交特征分离（FOFS）与等角紧框架（ETF）损失来消除专家冗余，从而在保持 CLIP 泛化能力的同时实现了对未见类别的卓越异常检测性能。

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI