cs.CV 篇论文 | Gist.Science

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

本文提出了 EvalMVX 基准数据集，该数据集包含 25 个物体在 20 种视角和 17 种光照条件下采集的 8,500 张图像及对应真值网格，旨在统一评估多视图立体视觉（MVS）、多视图偏振形状恢复（MVSfP）和多视图光度立体视觉（MVPS）等多种神经 3D 重建方法在不同几何细节与反射类型下的性能。

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

本文通过引入焦点损失、轻量级注意力门控和紧凑对齐模块，改进了 MambaBDA 框架，有效解决了卫星影像建筑损伤评估中的类别不平衡、背景干扰及跨域泛化难题，在多个灾害数据集上显著提升了模型性能。

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

本文通过系统研究温度参数与优化器、教师预训练/微调等训练组件之间的相互作用，揭示了影响温度选择的关键因素，为知识蒸馏实践提供了统一且实用的指导。

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

本文提出了 ITO 框架，通过结合多模态多重对齐与训练时融合机制（推理时丢弃）来消除模态间隙并增强表征学习，从而在多个基准测试中显著超越了现有的强基线模型。

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

Toward Early Quality Assessment of Text-to-Image Diffusion Models

本文提出了名为 Probe-Select 的即插即用模块，通过分析扩散和流匹配模型在生成早期（仅 20% 轨迹）的中间激活特征来预测最终图像质量，从而实现对低质量种子图像的提前终止，在降低 60% 以上采样成本的同时提升了保留图像的整体质量。

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

本文通过将 3D 高斯泼溅（3DGS）的图像形成模型推广至非指数辐射传输机制，提出了基于二次透射率的亚线性、线性和超线性变体，在保持与原始方法相当渲染质量的同时，显著减少了过度绘制并实现了高达 4 倍的渲染速度提升。

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

本文提出了 TRACE 框架，通过结合生成式思维链推理与压缩表示学习，并构建 M-BEIR-CoT 数据集进行训练，实现了能够根据查询复杂度自适应切换推理模式、在 M-BEIR 基准上取得最新性能且具备卓越零-shot 泛化能力的通用多模态检索模型。

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

MoECLIP 提出了一种基于混合专家（MoE）架构的零样本异常检测方法，通过动态将图像块路由至专用的低秩适应（LoRA）专家，并结合冻结正交特征分离（FOFS）与等角紧框架（ETF）损失来消除专家冗余，从而在保持 CLIP 泛化能力的同时实现了对未见类别的卓越异常检测性能。

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

本文提出了 ProSMA-UNet 模型，通过将跳连门控重构为解码器引导的稀疏特征选择问题，利用多尺度兼容性场与 $\ell_1$ 近端算子实现显式噪声抑制，从而在低对比度医学图像分割任务中显著提升了性能。

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

本文提出了名为 SpeciaRL 的特定性感知强化学习框架，通过引入基于在线推理最佳预测的动态验证器奖励信号，有效引导推理型多模态大模型在开放世界细粒度图像分类任务中实现正确性与特定性的最佳平衡。

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

本文提出了名为 MORPHEUS 的新设计空间，基于输入 - 模型 - 输出框架对深度草图驱动的 3D 建模技术进行了全面综述，旨在通过解决草图抽象与歧义性挑战，推动以用户意图为中心的跨学科研究发展。

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

该研究通过对比中文到阿拉伯语、希腊语到弗拉芒语两组不同手语对，利用 Google Mediapipe 提取特征并结合 MLP 与 GRU 架构进行实验，证实了基于象似性（Iconicity）的跨语言迁移学习能显著提升手语识别性能（阿拉伯语提升 7.02%，弗拉芒语提升 1.07%）。

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

本文提出了一种名为 mHC-HSI 的聚类引导超连接 Mamba 模型，通过设计结合物理光谱分组的聚类引导模块及可解释的软聚类残差矩阵，显著提升了高光谱图像分类的精度与可解释性。

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

该论文提出了一种包含反事实图像测试的评估框架，揭示了当前基于准确率的奖励机制导致多模态医疗推理模型出现“视觉依赖退化”和“幻觉性视觉推理”现象，表明仅凭准确率无法真实反映模型的视觉 grounding 能力，亟需引入感知视觉依赖的评估与训练目标。

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

本文针对实时 AI 伴侣面临的低延迟推理、自主响应决策及内容生成控制三大挑战，提出了 Proact-VL 通用框架并构建了 Live Gaming 基准数据集，通过游戏解说与引导等场景验证了该框架在实现低延迟、高质量且具备主动感知能力的实时交互方面的有效性。

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

该论文通过引入三种定位误差模型并在 Argoverse 2 数据集上评估 MapTRv2 变体，揭示了定位误差（尤其是航向角误差）会显著扭曲在线 HD 地图构建的标签质量，导致模型性能呈非线性下降，并据此提出了一种基于距离的评估指标。

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

本文提出了名为 PERSIST 的新型世界模型范式，通过模拟潜在 3D 场景（环境、相机和渲染器）的演化，实现了具备持久空间记忆和几何一致性的交互式视频生成，显著提升了长时稳定性并支持在 3D 空间中进行细粒度的环境编辑与控制。

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

本文提出了 Phys4D，一种通过三阶段训练范式（包括大规模伪监督预训练、基于仿真的监督微调及强化学习）将视频扩散模型转化为物理一致 4D 世界表示的方法，显著提升了生成内容在细粒度时空动态与物理合理性方面的表现。

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

本研究提出了一种地理加权弱监督贝叶斯高分辨率 Transformer 模型，通过融合 Sentinel-1、RCM 和 AMSR2 多源数据，实现了 200 米分辨率的泛北极海冰密集度制图及其不确定性量化，有效克服了特征细微、标签不精确及数据异质性挑战。

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

本文提出了 PhyPrompt，一种基于强化学习的两阶段提示词优化框架，通过物理思维链微调与动态奖励课程策略，在仅使用 7B 参数模型的情况下显著提升了文本生成视频的物理合理性，同时兼顾语义忠实度并超越了更大规模的通用模型。

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI