cs.CV 篇论文 | Gist.Science

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

本文提出了 Kernel VICReg，一种将 VICReg 自监督学习目标引入再生核希尔伯特空间（RKHS）的新框架，通过核化损失函数中的方差、不变性和协方差项，在无需显式映射的情况下实现非线性特征学习，从而在非线性结构显著或样本有限的场景下有效缓解表征坍塌并提升性能。

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

本文针对联邦持续学习中提示通信导致的类间知识不一致问题，提出了 C²Prompt 方法，通过引入局部类分布补偿机制和类感知提示聚合方案，有效缓解了类内分布差异与类间知识混淆，从而在多个基准测试中实现了最先进的性能。

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

本文提出了一种面向腿式机器人的决策驱动语义对象探索方法，通过置信度校准的语义证据仲裁、受控增长的语义拓扑记忆以及语义效用驱动的亚目标选择机制，在无需稠密几何重建的情况下，将噪声语义观测转化为稳定可执行的探索决策，从而显著提升了开放世界中的探索性能。

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

本文提出了 DeCLIP 框架，通过解耦提示机制将多标签图像转化为单类视图以适配 CLIP 预训练范式，并引入自适应相似度调节策略，在无需回放和参数高效的前提下有效解决了多标签类增量学习中的灾难性遗忘与高误报率问题。

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

本文提出了 BOUND 模型，通过推断未知物体的粗粒度类别而非仅标记为单一“未知”标签，在保持已知类别检测精度的同时提升了未知物体的召回率，并实现了具有语义细粒度的分层分类，从而增强了开放世界目标检测在自动驾驶等实际场景中的决策能力。

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

本文提出了名为 LikePhys 的免训练评估方法，通过利用去噪目标作为似然代理来区分物理有效与无效视频，构建了涵盖四大物理领域的基准测试，证明了其指标与人类偏好高度一致，并揭示了当前视频扩散模型在物理理解能力上随模型规模与推理设置扩展而呈现的改进趋势。

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

本文提出了 CanvasMAR，一种通过引入作为非均匀掩码的全局模糊“画布”先验、运动感知采样课程以及组合无分类器引导，从而在极少采样步数下实现高保真视频预测的自回归模型。

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

本文提出了 3DThinker 框架，通过两阶段训练使视觉语言模型在无 3D 先验和标注数据的情况下，能够像人类一样利用图像中的几何信息进行 3D 空间想象与推理，从而在有限视角下显著提升了空间关系理解能力。

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

本文提出了 AURASeg 框架，通过引入残差辅助边界细化模块、注意力渐进上采样解码器及轻量级多尺度上下文模块，有效解决了移动机器人在边缘设备上 drivable-area 分割中边界精度不足与特征表示受限的问题，并在多个数据集及 Jetson Nano 设备上验证了其优越性能与部署可行性。

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

该论文提出了名为 CULTIVate 的基准测试，旨在通过涵盖 16 个国家的跨文化活动（如问候、饮食和庆典）来评估文生图模型的文化忠实度，揭示了现有模型在全球南方国家表现较差及存在特定失败模式的系统性偏差，并证明了其提出的新指标比现有指标更契合人类判断。

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

该论文提出了一种融合结构公平性解耦与全局分布对齐的双机制协同优化框架，在保持深伪检测整体精度的同时，有效提升了跨域场景下的组间与组内公平性。

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

LaxMotion 提出了一种无需精确 3D 姿态监督的框架，通过利用全局轨迹与单目 2D 运动线索的一致性来学习 3D 动作结构，从而在保持生成质量的同时显著提升了模型的泛化能力。

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

该论文针对生成式扩散模型中文化记忆与泛化能力交织的“多模态图标性”现象，提出了将“识别”与“实现”分离的评估框架（CRT 指标），通过大规模实验揭示了模型在文化引用下的行为差异及其受数据频率、文本独特性等多重因素的影响，从而推动了从简单图文匹配向深层语境理解的评估范式转变。

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

该论文提出了一种名为 Co-Layout 的新框架，通过结合大语言模型与基于网格的整数规划，采用由粗到细的优化策略，实现了对室内布局与家具摆放的联合自动优化，在提升设计质量的同时显著提高了计算效率。

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

本文提出了名为 SPARK 的框架，通过结合中性场景锚点、利用视听关联先验的潜在听觉触发词以及风格调节器，构建看似无害的提示词以协同诱导文本生成视频（T2V）模型绕过安全防御，从而生成语义违规的视频内容。

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

本文提出了 MRIQT，一种基于物理感知扩散模型的 3D 图像质量转换框架，通过结合 K 空间退化模拟、v 预测引导及信噪比加权感知损失，显著提升了便携式超低场新生儿 MRI 的图像质量与病理诊断可用性，使其在客观指标和临床评价上均优于现有方法。

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

本文介绍了 FunnyNodules，这是一个完全参数化的合成医学图像数据集，通过生成具有可控视觉属性的抽象肺结节形状及明确的决策规则，旨在填补缺乏诊断推理标注的空白，从而为评估和开发能够像放射科医生一样基于正确理由进行推理的可解释人工智能（xAI）模型提供灵活且全面的基准。

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

该论文提出了 FireScope 框架及 FireScope-Bench 基准，通过结合视觉监督与强化学习的思维链推理机制，实现了跨大陆的高分辨率野火风险预测，显著提升了模型的泛化能力与可解释性。

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

该论文提出了 VeilGen 生成模型与 DeVeiler 恢复网络，通过无监督学习潜在透射与眩光图来模拟并去除简化光学系统中的镜头光幕眩光，从而在无需配对数据的情况下实现了高质量的图像复原。

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

本文提出了一种受 Mamba 架构启发的统一注意力-Mamba（UAM）骨干网络，通过灵活融合注意力与 Mamba 模块消除了手动比例调优的需求，并构建了多模态框架，在肿瘤细胞分类和图像分割任务上均实现了超越现有基础模型的最先进性能。

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs